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本 书 是 《商业 智能 深入 浅 出 》 的 姊妹 版 ， 数 据 架 构 、 商 业 智能 、 数 据 治理 和 大 数据 技 
术 是 本 书 的 核心 。 

为 什么 本 书 将 数据 架构 和 商业 智能 放 在 一 起 ?本 书 为 什么 穿插 着 大 数据 和 数据 治理 方面 
的 内 容 ? 











传统 的 商业 智能 系统 是 围绕 模型 设计 、 数 据 采 集 、 加 工 、 联 机 分 析 和 报表 生成 而 设计 
的 ， 目 的 是 提高 企业 的 运营 效率 ， 增 强 企业 的 竞争 力 和 领导 者 的 决策 能 力 。 而 数据 架构 关注 
的 是 数据 的 分 布 、 流 转 和 数据 分 类 等 内 容 ， 目 的 是 通过 对 数据 采集 、 加 工 、 对 外 服务 和 数据 
模型 的 设计 ， 提 高 数据 处 理 和 加 工 的 效率 ， 提 升 数 据 采 集 的 灵活 性 。 

如 何 建立 一 个 灵活 、 松 耦 合 、 高 性 能 的 数据 架构 规划 体系 ， 是 很 多 企业 和 金融 机 构 必 须 
重视 的 问题 。 经 过 多 年 的 信息 化 实践 ， 很 多 企业 和 金融 机 构 已 经 逐渐 认识 到 ， 系 统 应 该 具备 
多 渠道 数据 采集 能 力 、 历 史 与 趋势 分 析 能 力 。 数 据 架 构 规划 在 信息 化 过 程 中 起 着 非常 重要 的 
作用 ， 通 过 数据 架构 规划 可 以 推动 企业 信息 化 的 进程 ， 保 证 企业 通过 使 用 数据 ， 提 供 更 好 的 
产品 和 服务 ， 降 低 成 本 和 控制 风险 ， 促 进 企业 经 营 战略 的 实现 ， 提 升 企业 的 核心 竞争 力 。 

由 于 激烈 的 市 场 竞 争 和 业务 的 快速 发 展 ， 很 多 企业 迫切 需要 改变 运营 模式 ， 但 是 由 于 数 
据 模 型 的 不 统一 ， 数 据 分 散 ， 不 能 共享 ， 严 重 制约 了 企业 的 发 展 ， 它 们 已 经 充分 认识 到 数据 
是 核心 资产 ， 正 是 这 个 原因 IT 人 员 需 要 了 解数 据 架构 方面 的 知识 。 数 据 架 构 是 基础 ， 而 商 
业 智 能 是 在 数据 架构 基础 之 上 建立 起 来 的 一 种 解决 方案 。 它 们 是 相辅相成 、 融 汇 贯通 的 ， 两 
者 之 间 有 相通 的 地 方 ， 又 有 不 同 的 分 析 视 角 和 重点 。 

随 着 数据 采集 范围 的 不 断 扩大 ， 使 得 文档 、 视 频 等 半 结 构 化 和 非 结 构 化 的 数据 逐渐 成 为 
很 多 企业 主要 的 数据 源 。 我 们 可 以 这 样 说 ，80% 的 数据 可 能 都 来 自 于 非 结 构 化 数据 。 包 括 : 
图 像 、 音 频 、 微 博 、 网 帖 、 电 子 邮 件 等 信息 。 特 别 是 对 于 商业 银行 ， 坐 拥 大 量 非 结构 化 数据 
却 未 能 更 好 地 创造 业务 价值 。 对 于 商业 银行 来 说 ， 大 数据 更 是 机 遇 ， 客 户 在 不 断 地 与 银行 交 
易 和 交互 过 程 中 ， 会 创造 出 各 种 类 型 的 数据 ， 这 也 为 商业 银行 实时 或 者 准 实时 的 数据 分 析 提 
供 了 便利 ， 可 以 对 客户 进行 有 针对 性 的 营销 ， 所 以 ， 大 数据 技术 也 是 本 书 的 核心 内 容 之 一 ， 
穿插 在 各 个 章节 当中 。 另 外 ， 为 了 提升 数据 架构 各 个 层次 的 管控 及 其 协作 能 力 ， 也 需要 相关 
人 员 理解 数据 治理 方面 的 知识 ， 所 以 本 书 也 穿插 着 相关 内 容 。 

本 书 的 亮点 是 什么 ? 

本 书 试图 利用 公式 般 的 架构 推导 过 程 ， 以 企业 总 体 规划 为 主线 ， 先 从 企业 战略 、 企 业 架 
构 出 发 ,逐步 细 化 到 业务 战略 、IT 战略 、 业 务 架构 和 全 架构 ， 再 细 化 到 应 用 架构 、 数 据 架 
构 、 拉 术 架 构 和 数据 治理 的 过 程 ， 如 下 图 所 示 。 而 商业 智能 可 以 看 成 是 帮助 用 户 对 自身 业务 
经 营 做 出 明智 决策 的 解决 方案 之 一 ， 也 可 以 看 作 是 开 战略 的 一 部 分 。 企 业 开 架构 的 目的 是 
为 所 有 的 解决 方案 提供 开支 持 。 最 后 利用 数据 架构 的 方法 论 讲解 关于 商业 智能 的 数据 模型 
设计 、 数 据 的 分 布 、 流 转 等 内 容 。 

这 种 公式 般 的 推导 过 程 ， 会 让 读者 真正 理解 架构 的 核心 思想 和 方法 论 ， 知 其 然 ， 亦 知 其 
所 以 然 ， 同时 可 以 帮助 读者 将 书 中 的 架构 思路 和 方法 应 用 到 具体 的 项 目 当中 去 。 
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阅读 本 书 应 该 重点 关注 哪些 内 容 ? 

“ 乱 花 渐 欲 迷人 眼 ”， 我 们 不 要 拘泥 于 对 具体 概念 的 理解 ， 而 更 应 该 看 重 对 架构 方法 和 
思路 的 理解 ， 例 如 ， 如 何 对 某 企 业 的 数据 架构 现状 进行 分 析 ， 分 析 的 方法 和 思路 是 什么 ; 如 
何 对 该 企业 的 目标 数据 架构 进行 规划 ， 规 划 的 重点 和 步骤 是 什么 …… 。 

为 什么 写 这 本 书 ? 

与 本 书 类 似 的 书籍 在 国内 图 书 类 市 场 中 基本 上 是 一 个 空白 ， 但 是 数据 架构 师 的 职位 在 并 企 
业 中 却 越 来 越 受 到 重视 ， 出 现 了 “ 喷 井 ” 式 的 局 面 ， 数 据 架 构 师 的 理论 水 平和 项 目 经 验 也 需要 达 
到 一 定 的 高 度 ， 他 们 需要 掌握 数据 架构 、 商 业 智能 、 大 数据 和 数据 治理 方面 的 知识 。 

目前 现状 是 商业 智能 图 书 不 仅 小 众 ， 在 某 种 程度 上 其 至 可 以 说 是 一 个 珍稀 品种 。 讲 解 商 
业 智 能 架构 方面 知识 的 书籍 更 是 少 之 又 少 ， 而 本 书 除 了 讲解 企业 架构 、 业 务 架构 、 数 据 架构 
等 方面 的 知识 外 ， 还 讲解 了 商业 智能 领域 的 架构 知识 ， 更 是 从 企业 整体 规划 的 角度 去 分 析 商 
业 智 能 领域 的 应 用 ， 包 括 围绕 商业 智能 的 数据 架构 等 内 容 。 

本 书 的 读者 对 象 有 哪些 ? 

本 书 的 读者 定位 为 公司 管理 者 、IT 架构 咨询 顾问 、 数 据 架 构 师 、 系 统 分 析 师 、 商 业 智 
能 架构 师 以 及 有 志向 涉足 IT 架构 设计 和 咨询 顾问 工作 的 人 们 ， 希望 大 家 都 能 从 本 书 中 获 益 。 

本 书 编写 历时 整整 一 年 ， 其 间 经 历 了 襄 悦 、 取 品 、 痛 苦 和 从 很 ， 心 情 是 复杂 的 。 如 今 ， 
伴随 着 本 书 最 终 成 稿 ， 复杂 的 心情 烟消云散 ， 自 己 甚至 还 有 一 点 成 就 感 。 在 这 里 要 感谢 帮助 
我 完成 此 书 的 所 有 人 。 

感谢 公司 的 同事 ， 他 们 以 各 种 方式 为 本 书 的 编写 做 出 了 重要 的 贡献 ， 感 谢 他 们 的 技术 支 
持 和 帮助 。 

最 后 ， 也 是 最 重要 的 ， 我 要 感谢 母亲 (张丽华 ) 、 父 亲 〈 王 贵 林 ) ， 他 们 倾注 了 父母 无 
尽 的 爱 ， 感 谢 他 们 对 我 的 培养 和 无 微 不 至 的 照顾 ， 同 时 对 于 本 书 的 出 版 给 予 了 我 不 懈 的 文 
持 ， 还 要 感谢 岳父 ( 丁 一 损 ) 、 再 母 〈 赵 桂 荣 ) ， 书 中 同样 凝聚 了 他 们 的 心血 和 付出 。 感 谢 
二 叔 〈 王 玉 奎 ) ， 他 的 鼓励 激发 了 我 写作 的 热情 。 感 谢 茸 苦 的 妻子 〈 丁 玲玲 ) 和 心爱 的 女儿 
( 王 预 营 )。 他 们 是 我 最 大 的 精神 支柱 ， 如 果 没 有 他 们 的 辛劳 和 付出 ， 我 很 难 想象 能 完成 这 
本 书 的 创作 。 

虽然 本 人 在 编著 过 程 中 尽 了 最 大 努力 ， 但 是 由 于 本 人 的 水 平和 时 间 有 限 ， 本 书 可 能 存在 
不 足 之 处 ， 敬 请 广大 同行 和 读者 批 评 指正 。 
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第 工 章 企 业 架 构 总 体 规划 


本 章 目 标 
通过 本 章 的 学 习 ， 应 该 理解 的 内 容 包 括 : 企业 总 体 架构 规划 包含 哪些 内 容 ? 关于 IT 战略 、 
业务 战略 、 业 务 架 构 、 数 据 架 构 、 应 用 架构 和 技术 架构 的 定义 是 什么 ?同时 我 们 应 该 掌握 数据 
架构 规划 、 应 用 架构 规划 、 技 术 架 构 规划 的 方法 论 。 通 过 学 习 ， 读 者 应 对 企业 总 体 规划 、 企 业 
战略 、 企 业 架 构 、 业 务 架构 、 应 用 架构 、 技 术 架 构 和 数据 架构 有 一 个 整体 性 的 认识 。 

学 习 本 草 ， 读 者 将 掌握 . 

。 企业 架构 总 体 规划 的 概念 

。 企业 的 总 体 规划 包含 哪些 内 容 

。 什么 是 企业 战略 

。 什么 是 企业 IT 战略 

。 企业 架构 和 企业 战略 之 间 的 关系 

。 什么 是 业务 架构 

。 什么 是 IT 架构 

e 业务 架构 和 开架 构 之 间 的 关系 

。 数据 架构 规划 的 方法 论 

e 应 用 架构 规划 的 方法 论 

。 技术 架构 规划 的 方法 论 

















1.1 企业 总 体 架 构 规划 基础 


1.1.1 企业 总 体 架构 规划 概念 


一 、 企 业 总 体 架构 规划 定义 ? 

企业 总 体 架构 规划 是 从 全 局 出 发 ,解决 现存 问题 ， 同 时 满足 现实 需求 和 适应 未 来 发 展 的 
需要 ， 有 效 地 对 资源 进行 管控 ， 加 强 IT 技术 实力 ， 并 且 指 明 企 业 的 经 营 方 向 和 发 展 目 标 ， 
对 企业 远景 发 展 轨迹 进行 全 面 规划 。 

我 们 可 以 建立 起 对 企业 总 体 规划 的 感性 认识 ， 把 总 体 规划 看 成 是 对 城市 的 战略 规划 和 具 
有 全 局 性 、 长 远 性 的 建设 规划 等 内 容 。 同 时 遵循 从 实际 出 发 ， 正 确 处 理 好 各 种 关系 的 原则 ， 
使 局 部 建设 和 整体 发 展 能 够 稳步 前 行 ， 近 期 建设 和 远 期 规划 可 以 相互 支持 。 

举例 来 说 ， 城 市 的 总 体 规划 主要 关注 一 个 城市 的 定位 、 发 展 方向 、 功 能 区 域 和 基础 公共 
设施 等 方面 。 

如 图 1-1 所 示 ， 假 设 城市 的 战略 规划 是 建立 一 个 人 文 都 市 ， 打 造 区 域 一 体 化 共 赢 战略 ， 新 
型 城市 化 、 城 乡 统筹 与 美好 城乡 建设 战略 和 交通 引领 发 展 战略 ， 这 是 对 城市 的 发 展 方向 的 

了 






































PF ， 打 造 区 域 一 体 化 
赢 战略 














新 型 城市 化 、 城 乡 统筹 与 美好 城乡 建 
设 战略 和 展 战略 

















图 1-1 城市 总 体 规划 








定位 。 
城市 的 建设 规划 包括 水 利 规划 ， 电 网 规划 ， 建 筑 和 小 区 的 布局 ， 道 路 交通 ,煤气 等 基础 
设施 的 规划 。 





企业 总 体 规划 类 似 于 城市 总 体 规划 ， 包 含 了 企业 战略 、 企 业 架构 和 实施 解决 方案 等 。 

二 、 企业 总 体 规划 包含 的 内 容 

企业 的 总 体 规划 包括 企业 战略 、 企 业 架 构 和 实施 解决 方案 等 内 容 。 

如 图 1-2 所 示 ， 企 业 战 略 包含 业务 战略 和 IT 战略 ， 是 对 企业 业务 发 展 方向 和 I 发 展 方 
向 的 描述 。 它 们 都 属于 企业 宏观 的 管理 范畴 ， 与 城市 的 战略 规划 类 似 。 企 业 架 构 规 划 包 括 业 
务 架构 和 开架 构 ， 是 连接 企业 战略 和 实施 解决 方案 的 核心 纽带 ， 类 似 于 对 城市 的 建设 规划 。 








企业 总 体 规划 


制定 目标 业务 与 IT 架构 
业务 架构 
业务 对 象 
































漠 过 开篇 车 将 











图 1-2 企业 的 总 体 规划 








其 中 业务 架构 包含 了 对 业务 流程 、 业 务 对 象 、 业务 规范 和 价值 管理 的 描述 。 开 架构 包含 了 
对 应 用 架构 、 数 据 架 构 和 技术 架构 的 描述 ， 而 数据 架构 是 本 书 的 核心 和 重点 。 

企业 具体 的 实施 解决 方案 是 在 IT 架构 满足 企业 战略 的 基础 上 ， 通 过 数据 架构 、 应 用 架 
构 和 技术 架构 指导 企业 具体 实施 的 过 程 。 


1.1.2 企业 战略 


首先 了 解 一 下 什么 是 企业 战略 。 美 国 90% 的 企业 家 认为 :“ 最 占 时 间 、 最 为 重要 、 最 为 
困难 的 事 就 是 制定 战略 规划 ”"， 据 相关 机 构 统计 ， 发 达 国家 的 企业 领导 一 年 中 要 花 大 约 40% 
的 时 间 去 研究 企业 战略 。 

一 、 企 业 战略 的 定义 

企业 战略 是 对 企业 发 展 目 标 ， 包 括 达 成 目标 的 方法 和 途径 的 总 体 谋划 。 企 业 战 略 的 实质 
就 是 企业 的 发 展 方向 和 定位 ， 如 果 企业 的 战略 目标 不 明确 ， 定 位 和 发 展 方向 不 清楚 ， 企 业 的 
中 层 管 理 人 员 和 普通 员工 就 很 难 领悟 企业 高 层 的 战略 意图 和 任务 实质 。 

上 面 这 种 状况 会 导致 企业 大 部 分 成 员 形 失 方 向 感 ， 个 人 的 努力 和 发 展 方向 不 明确 ， 就 千 
成 了 企业 无 论 是 技术 路 线 、 服 务 方向 ， 还 是 组 织 架构 、 企 业 文化 等 诸多 方面 ， 都 会 产生 价值 
冲突 。 

企业 战略 的 作用 就 是 企业 能 够 运筹 肉 幅 ， 根 据 自 身 的 资源 和 环境 选择 合适 的 经 营 发 展 广 
向 ， 它 是 一 个 长 远 、 持 续 的 发 展 过 程 ， 具 有 一 定 的 稳定 性 。 

例如 ， 企 业 战略 可 以 包括 : 企业 的 信息 化 战略 、 竞 争战 略 、 营 销 战略 、 技 术 开发 战 
略 、 人 才 培养 战略 等 方面 ， 它 们 都 是 从 不 同 的 维度 去 描述 企业 整体 性 、 长 期 性 和 基本 性 
的 问题 ， 都 属于 企业 战略 的 范畴 。 如 果 企业 是 一 般 船 ， 那 么 企业 的 战略 就 是 航海 图 ， 引 
领 企业 到 达 目标 。 

二 、 企 业 战略 的 特征 

企业 战略 属于 企业 的 宏观 管理 范畴 ， 具 有 指导 性 、 长 远 性 、 系 统 性 、 风 险 性 、 全 局 性 和 
竞争 性 等 主要 特征 。 















































1) 指导 性 

企业 的 战略 明确 了 企业 的 经 营 方针 和 远景 发 展 目标 ， 在 企业 的 生产 和 管理 活动 中 起 着 指 
导 作 用 。 

2) 全 局 性 


企业 战略 具有 全 局 性 ， 通 过 对 政治 、 经 济 、 文 化 以 及 周边 经 营 环 境 的 深入 分 析 ， 并 且 结 
合 自 身 条 件 ， 从 系统 全 局 的 角度 对 企业 的 发 展 进行 全 面 规 划 。 

3) 长 远 性 

企业 战略 基于 企业 长 期 生存 和 长 远 发 展 的 需要 ， 确立 企业 的 战略 方向 和 远景 目标 。 企 业 
战略 是 一 个 长 期 、 持 续 的 过 程 ， 具 有 一 定 的 稳定 性 。 

4) 系统 性 

企业 战略 属于 决策 层 的 战略 ， 企 业 的 经 营 方针 、 投 资 规模 、 经 营 方向 和 发 展 目标 是 企业 
战略 的 核心 部 分 。 企 业 战 略 于 绕 着 发 展 目标 设立 各 个 阶段 的 经 营 策略 ， 并 且 构成 一 个 个 环 环 
相 扣 的 企业 战略 体系 。 














5) 风险 性 

企业 的 战略 决策 具有 一 定 的 风险 性 ， 如 果 经 过 深入 的 市 场 研究 ， 客 观 地 设立 远景 目标 ， 
并 且 资 源 调配 使 用 得 当 ， 制 定 的 企业 战略 就 会 起 到 促进 的 作用 。 反 之 ， 战 略 制 定 出 现 偏差 ， 
就 会 为 企业 带 来 相应 的 高 风险 。 

6) 竞争 性 

企业 战略 需要 考虑 各 种 的 内 外 环境 ， 明 确 自身 的 发 展 优势 ， 改 善 相 应 的 经 营 模 式 ， 增 强 
企业 的 竞争 力 ， 只 有 这 样 才 能 在 市 场 竞 争 中 处 于 领先 地 位 ， 保 证 企业 长 远 健康 的 发 展 。 

一 般 来 说 ， 企 业 战略 包括 业务 战略 和 IT 战略 。 

1) 业务 战略 

企业 的 业务 战略 是 指 企业 拥有 的 所 有 资产 ， 通 过 多 种 方式 进行 有 效 的 运营 ， 以 实现 利润 
的 最 大 化 和 资本 的 增值 。 它 强调 了 企业 在 各 自生 产 领 域 中 的 发 展 之 道 和 发 展 方向 ， 包 括 如 何 
创造 价值 ， 并 且 以 更 好 的 服务 去 满足 客户 ， 这 是 企业 业务 战略 的 核心 和 重点 。 

2) IT 战略 

企业 的 全 战略 是 指 在 充分 研究 企业 发 展 愿景 、 业 务 策略 和 管理 的 基础 上 ， 形 成 信息 
系统 的 远景 、 组 成 架构 、 人 逻辑 关系 等 内 容 ， 以 支撑 企业 战略 目标 的 实现 。 从 功能 划分 的 
角度 来 看 ，IT 战略 是 一 类 独立 的 战略 ， 为 了 明确 未 来 IT 的 发 展 定位 和 战略 目标 ， 可 以 从 
应 用 系统 建设 、 信 息 治理 、 基 础 设施 、IT 管理 体系 、IT 队伍 建设 等 几 个 方面 进行 全 面 
规划 。 

IT 战略 的 实质 就 是 关于 信息 系统 功能 目标 及 其 实现 的 总 体 规划 。 

IT 战略 的 目的 是 指导 系统 的 建设 ,通过 明确 相应 的 优化 机 制 、 保 障 规划 和 工作 计划 ， 
并 且 根 据 外 部 环境 的 变化 ， 不 断 地 修改 IT 战略 规划 ， 以 适应 未 来 业务 发 展 的 需要 。IT 战略 
是 保证 信息 化 建设 全 面 性 、 前 上 脆性 的 重要 手段 之 一 。 


1.1.3 什么 是 企业 架构 


一 、 企 业 架 构 的 概念 

企业 总 体 规划 包括 企业 的 战略 、 企 业 架 构 和 企业 具体 的 实施 解决 方案 。 企 业 架 构 又 包括 
业务 架构 和 IT 架构 ， 本 书 重点 关注 的 是 企业 架构 中 的 数据 架构 部 分 。 我 们 先 了 解 一 下 什么 
是 企业 架构 ?企业 架构 和 企业 战略 的 关系 是 什么 ? 

关于 企业 架构 ， 不 少 的 学 术 人 研究 机 构 、 标 准 组 织 和 大 厂商 ， 都 给 出 了 各 自 的 定义 。 

(1) 微软 公司 的 定义 

企业 架构 是 对 一 个 公司 的 核心 业务 流程 和 IT 能 力 的 组 织 逻 辑 ， 通 过 一 组 原理 、 政 策 和 
技术 选择 来 获得 ， 以 实现 公司 运营 模型 的 业务 标准 化 和 和 集成 需求 。 

(2) IBM 公司 的 定义 

企业 架构 是 记录 企业 内 所 有 的 信息 系统 ， 系 统 之 间 的 相互 关系 以 及 系统 如 何 完成 企业 使 
命 的 蓝图 。 

(3) Zachman 的 定义 

企业 架构 是 构成 组 织 的 所 有 关键 元 素 和 关系 的 综合 描述 。 企 业 架构 框架 (EAF) 是 个 描 
述 企 业 架 构 方法 的 蓝图 。 
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二 、 企 业 架 构 的 实质 

企业 架构 实质 上 就 是 对 企业 多 角度 的 一 种 描述 ， 它 反映 了 企业 的 业务 流程 、 技 术 的 组 织 
和 安排 ,是 对 企业 关键 性 业务 和 技术 的 整体 性 描述 。 

如 果 我 们 把 企业 当做 一 栋 建筑 ， 信 息 技术 就 是 一 些 建 筑 材料 ， 在 建造 的 过 程 中 ， 应 该 根 
据 建筑 的 功能 定位 并 且 结合 现 有 的 资源 进行 总 体 的 架构 设计 ， 用 架构 来 指导 建造 的 过 程 。 其 
中 对 建筑 的 功能 定位 类 似 于 企业 的 战略 ， 对 建筑 的 总 体 架 构 设 计 类 似 于 企业 架构 。 其 实 
“架构 ”一 词 最 早 来 源 于 建筑 行业 ， 它 描绘 了 事物 的 本 质 结构 和 内 在 规律 ， 例 如 城市 需要 城 
市 架构 。 

企业 架构 先 从 企业 战略 出 发 去 梳理 业务 架构 ， 然 后 进一步 分 析 和 规划 IT 架构 ， 通 过 对 
企业 架构 的 分 析 ， 将 企业 的 业务 战略 、 业 务 流程 紧密 结合 起 来 ， 为 企业 描绘 一 个 业务 、 信 
息 、 技 术 互 动 的 蓝图 。 企 业 架 构 实质 上 就 是 企业 的 全 景 图 ， 从 战略 、 愿 景 ， 到 业务 、IT 等 
各 个 方面 展示 企业 的 结构 和 内 部 关系 ， 从 而 指导 企业 开展 信息 化 建设 , 最终 实现 业务 和 IT 
的 融合 。 
举例 来 说 ,修建 一 栋 房 子 ， 需 要 进行 很 多 的 架构 设计 工作 ， 首先 要 进行 外 部 的 效果 设 
， 当 客户 满意 之 后 ， 青 进行 下 内 部 设计 ， 以 及 配套 的 线路 、 上 下 水 管 等 方面 的 规划 。 同 
， 在 进行 企业 架构 设计 的 时 候 ， 也 需要 像 房 屋 架 构 设 计 一 样 从 不 同 的 层次 去 描述 企业 的 特 
， 如 图 1-3 所 示 。 

房屋 架构 设计 房屋 内 部 设计 








这 很 竺 
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图 1-3 企业 架构 的 形象 比喻 


企业 架构 是 对 真实 世界 中 的 企业 的 业务 流程 和 全 设施 的 抽象 ， 主 要 包括 企业 组 织 、 职 
能 、 业 务 流程 、IT 系统 、 数 据 、 网 络 部 署 等 的 完整 的 、 一 体 化 的 描述 。 企 业 架 构 反 映 了 企 
业 业 务 的 状况 ， 并 体现 了 业务 与 开 的 映射 关系 ， 明 确 各 类 IT 基础 设施 对 业务 的 支撑 关系 。 
企业 架构 就 像 城 市 的 “总 体 规划 蓝图 ”" ， 在 它 的 指导 下 ， 各 个 全 系统 的 建设 得 以 有 序 进行 。 
归根 结 底 ， 企 业 架 构 的 目的 是 将 跨 企业 的 、 零 散 的 业务 流程 优化 成 一 个 集成 的 环境 ， 同 时 帮 
助 企业 执行 业务 战略 及 IT 战略 规划 。 

如 图 1-4 所 示 ， 缺 乏 企业 架构 的 全 系统 犹如 一 个 个 的 “竖井 ”结构 ， 各 个 部 门 难 以 保 
持 信息 的 一 致 性 。 

企业 架构 统一 关键 的 企业 数据 ， 确 保 跨 部 门 之 间 信 息 的 一 致 性 ， 保 证 了 数据 的 完整 性 和 
准确 性 ， 如 图 1-5 所 示 。 

为 了 满足 中 国人 民 银 行 或 者 中 国 银监会 的 监管 要 求 ， 增 强 核心 竞争 力 并 满足 现实 需求 ， 
很 多 金融 机 构 也 在 进行 企业 架构 的 建设 。 
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销售 部 门 制造 部 门 设计 部 门 











图 1-4 “竖井 ”架构 
CEO 销售 部 门 制造 部 门 设计 部 门 








图 1-5 企业 架构 统一 关键 的 企业 数据 


。 监管 要 求 

由 中 国 银监会 颁布 的 《中 国 银行 业 信息 科技 十 二 五 发 展 规划 监管 指导 意见 》 中 已 经 说 明了 
“信息 科技 规划 要 与 业务 战略 保持 一 致 ， 以 业务 架构 为 基础 ， 科 学 设计 应 用 架构 、 数 据 架 构 和 
基础 架构 ” ， 这 说 明 政 府 监管 部 门 已 经 越 来 越 重 视 对 规划 的 要 求 ， 同 时 也 提高 了 监管 力度 。 

。 增强 核心 竞争 力 

企业 架构 可 以 保证 全 系统 能 够 快速 响应 市 场 需求 ， 使 系统 设计 灵活 、 先 进 ， 具 备 良 好 
的 扩展 性 。 同 时 IT 与 业务 的 有 效 融 合 ， 有 力 地 提升 了 企业 核心 竞争 力 ， 并 且 支 持 未 来 业务 
和 规模 的 扩张 。 

。 满足 现实 需求 

企业 架构 可 以 帮助 企业 统一 各 类 概念 与 术语 ， 梳 理 现 有 系统 ， 提 取 可 重用 的 IT 资产， 
加 快 积累 ， 有 效 降 低 应 用 的 开发 成 本 ， 提 高 设计 、 开 发 效率 和 质量 。 

三 、 企业 架构 的 价值 

企业 架构 的 价值 可 以 分 为 有 形 价 值 和 无 形 价值 。 





企业 架构 的 有 形 价值 体现 在 以 下 几 个 方面 : 

1) 有 效 利 用 现 有 的 架构 ， 缩 短 系统 开发 和 部 署 的 时 间 ， 构 建 灵活 的 系统 环境 。 

2) 减少 系统 的 重复 建设 ,节约 并 且 降 低 系 统 设计 和 开发 的 成 本 。 

3) 有 效 利 用 现 有 资源 ,减少 设计 和 开发 人 员 的 学 习 周 期 。 

企业 架构 的 无 形 价 值 体 现在 以 下 几 个 方面 : 

1) 有 效 达 成 业务 人 员 和 本 技术 人 员 之 间 的 共识 。 

2) 加 强 业 务 人 员 和 技术 人 员 的 沟通 。 

3) 保证 信息 的 集中 ， 增 加 知识 的 积累 。 

四 、 企 业 架 构 的 组 成 

企业 架构 的 过 程 实质 上 就 是 对 现实 世界 中 企业 的 业务 流程 和 开设 施 抽 象 的 过 程 。 它 反 
映 了 企业 的 业务 流程 和 IT 架构 之 间 的 关系 。 

一 般 来 说 ,企业 架构 包括 业务 架构 和 IT 架构。 我 们 先 了 解 一 下 什么 是 业务 架构 ? 

1. 业务 架构 

一 个 优秀 的 架构 师 和 咨询 顾问 ， 不 在 于 他 有 多 厉害 的 技术 手段 ， 重 要 的 是 他 对 业务 的 理 
解 有 多 深 。 通 常 来 说 ， 业 务 架 构 可 以 作为 IT 架构 的 输入 部 分 。 广 义 的 业务 架构 包括 产品 、 
销售 、 财 务 、 人 力 资源 、 客 户 服务 等 企业 核心 的 业务 功能 和 职责 。 并 且 将 企业 战略 转化 成 企 
业 运 营 的 目标 和 形式 ， 同 时 明确 相关 人 员 和 角色 、 企 业 资 源 、 开 资源 和 服务 是 如 何 协调 和 部 
署 的 。 我 们 可 以 认为 由 企业 战略 决定 了 业务 架构 的 模式 ， 同 时 业务 架构 又 是 企业 战略 实现 的 
手段 之 一 。 

狭义 的 业务 架构 包含 了 企业 运营 活动 中 的 业务 策略 、 组 织 、 关 键 业务 流程 、 组 织 架构 以 
及 人 员 组织 结 构 等 内 容 。 我 们 对 业务 架构 有 以 下 两 方面 的 理解 ; 

Q) 业务 架构 是 对 业务 规划 的 一 种 描述 ， 主 要 解决 业务 布局 ， 以 及 业务 之 间 的 关系 ， 包 
括 制定 什么 样 的 业务 策略 、 建 立 什 么 样 的 机 制 和 流程 等 内 容 。 

在 企业 架构 中 ， 业 务 架 构 是 核心 内 容 ， 是 企业 相对 稳定 的 部 分 ， 企 业 在 业务 架构 的 基础 
上 可 以 建立 相应 的 业务 流程 ， 不 断 满 足 市 场 需求 ， 可 以 做 到 差异 化 的 竞争 。 业 务 架 构 决 定 了 
开 架构 的 内 容 ， 同 时 开 架构 又 推动 了 业务 架构 的 规划 ， 它 们 是 相互 支持 和 促进 的 关系 。 

@ 业务 架构 定义 了 企业 如 何 创造 价值 以 及 企业 内 部 的 协作 关系 。 它 描述 了 企业 如 何 满 
足 客 户 需求 ， 如 何 进 行 市 场 竞 争 ， 如 何 达 成 与 其 他 企业 之 间 的 合作 关系 ， 如 何 建立 相应 的 业 
务 运营 体系 和 绩效 考核 等 内 容 。 

业务 架构 是 基于 企业 战略 的 ， 它 决定 了 企业 各 组 成 部 分 是 如 何 运转 的 。 同 时 业务 架构 建 
立 了 企业 战略 和 日 常 运营 活动 中 的 关联 关系 ， 它 是 连接 企业 战略 和 具体 项 目 实施 的 一 座 桥 
梁 ， 通 过 业务 架构 的 支持 ， 达 到 企业 战略 中 预先 设 定 的 战略 目标 。 

举例 来 说 ， 假 设 企 业 的 战略 目标 是 将 成 本 降低 10% ， 要 实现 该 目标 ， 就 需要 对 现 有 的 
运营 机 制 进行 改进 ， 可 以 通过 在 线 自助 服务 减少 人 力 成 本 ， 或 者 是 优化 现 有 的 业务 流程 ， 提 
升 运 营 效 率 。 一 般 来 说 ,日 常 运作 的 组 织 、 业 务 流程 和 全 运营 系统 都 应 该 在 业务 架构 的 框 
架 下 运转 ， 如 果 没 有 业务 架构 ， 就 会 导致 运营 与 企业 战略 方向 的 脱节 ， 使 每 个 业务 环节 存在 
缺乏 统一 调度 等 问题 。 

2.， 开 架构 

IT 架构 是 对 企业 系统 的 IT 规划， 是 建立 企业 信息 化 系统 的 综合 性 的 蓝图 ，IT 架构 可 以 
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帮助 企业 获得 最 优 的 投资 回报 ， 同 时 实现 业务 和 技术 接口 之 间 的 标准 化 ， 保 证 企业 运营 和 企 
业 战 略 之 间 的 一 致 性 。 

开 架构 又 承担 了 开战 略 与 开 项 目 实施 、 执 行 的 桥梁 作用 ， 它 主要 包含 应 用 架构 、 数 据 
架构 和 技术 架构 。 

开架 构 主 要 解决 以 下 问题 : 

e 提供 明确 的 技术 解决 方案 ， 和 企业 的 战略 目标 保持 一 致 。 

e 保证 业务 需求 和 技术 支持 之 间 转 换 的 高 效 性 ， 实 现 企 业 资 源 的 最 优 配置 。 

开 架构 的 原则 ; 

(1) 法 律 法 规 遵循 原则 

系统 的 建设 应 该 符合 相关 法 律 法 规 的 要 求 ， 如 一 些 行业 法 规 要 求 、 信 息 安 全 要 求 等 方面 。 

(2) 架构 及 标准 遵循 原则 

对 于 未 来 系统 的 建设 ， 应 该 遵循 架构 及 标准 的 原则 。 例 如 ， 技 术 解 决 方案 、 功 能 范围 等 
方面 需要 和 企业 业务 战略 保持 一 致 。 

(3) 数据 整合 原则 

如 果 存 在 多 个 数据 源 ， 特 别 是 在 数据 处 理 、 存 储 和 数据 服务 过 程 中 有 相同 的 部 分 ， 抽 象 
出 来 形成 统一 的 数据 管理 模块 。 

(4) 资产 重用 原则 

在 系统 建设 过 程 中 涉及 的 所 有 设备 、 软 件 或 者 组 件 ， 都 需要 进行 管理 ， 特 别 需 要 考虑 在 
未 来 系统 架构 过 程 中 这 些 资产 的 重用 性 ， 从 而 降低 系统 建设 的 成 本 。 

(5) 灵活 高 效 原则 

系统 的 架构 需要 满足 一 定 的 灵活 性 ， 以 适应 外 部 环境 和 业务 需求 的 变化 。 同 时 ， 要 能 
保证 系统 处 理 数 据 的 高 效 性 ， 以 满足 客户 的 各 种 需求 。 

开架 构 的 作用 : 

e 理解 IT 的 价值 。 帮 助 企业 高 层 理解 IT 的 价值 ， 为 企业 未 来 的 发 展 提供 信息 化 支持 。 

e 构建 灵活 的 环境 。 有 效 利 用 现 有 的 资源 和 已 有 的 架构 ， 缩 短 部 署 和 开发 的 时 间 ， 构 建 
灵活 的 环境 。 

e 降低 成 本 。 减 少 系 统 重复 建设 ， 降 低 系统 建设 成 本 。 

。 规避 各 种 风险 。 

e 有 效 地 促进 业务 和 开 之 间 的 融合 。 

e 加 强 沟通 。 加 强 业务 人 员 和 IT 人 员 的 沟通 ， 建 立 共 同 交 流 的 平台 。 

开 架构 包含 应 用 架构 、 数 据 架 构 和 技术 架构 。 下 面 分 别 进行 描述 。 

五 、 应 用 架构 

1. 什么 是 应 用 架构 ? 

应 用 架构 是 对 实现 业务 能 力 、 支 撑 业 务 发 展 的 应 用 功能 结构 化 的 描述 方法 。 

系统 的 应 用 架构 可 以 从 功能 和 应 用 两 个 不 同 的 视觉 角度 描述 系统 各 个 组 件 的 构成 以 
及 组 件 之 间 的 关系 。 功 能 组 件 模 型 侧重 于 业务 功能 ， 而 应 用 组 件 模型 则 侧重 于 应 用 系统 
设计 。 


应 用 架构 是 业务 架构 和 技术 架构 之 间 的 “桥梁 ”， 如 图 1-6 所 示 。 

































































应 用 架构 





2. 应 用 架构 的 目标 

e 为 业务 发 展 和 业务 战略 的 实现 提供 有 力 的 架构 支撑 和 保障 。 

。 提供 对 业务 架构 的 应 用 支撑 。 

。 描述 应 用 系统 的 实现 方式 。 

。 描述 应 用 系统 间 的 交互 关系 。 

。 描述 应 用 与 核心 业务 的 对 应 关系 。 

3. 应 用 架构 的 原则 

应 用 架构 的 原则 主要 包括 业务 前 脆性 、 应 用 企业 化 、 系 统 平台 化 、 系 统 整合 化 和 适度 松 








耦合 。 
。 业务 前 脆性 
能 够 适应 未 来 业务 发 展 的 要 求 ， 保 证 应 用 架构 对 于 企业 战略 和 业务 架构 的 支持 能 力 ， 应 用 架 
构 应 该 具备 一 定 的 前 瞻 性 ， 同 时 保证 架构 的 灵活 性 和 可 扩展 性 。 应 用 架构 在 覆盖 现 有 业务 的 基础 
上 ， 能 够 满足 未 来 业务 发 展 的 可 扩展 性 ， 并 且 考 虑 现 有 的 资源 配置 ， 保 证 架构 的 可 落地 性 。 

。 应 用 企业 化 

通过 应 用 架构 的 设计 ， 人 解决 系统 多 、 功 能 分 散 或 者 界限 不 清晰 的 问题 ， 推 动 企业 进行 集 
中 的 应 用 建设 。 并 且 全 面 考虑 到 业务 的 需求 ， 增 强 对 外 服务 相关 的 组 件 设计 ， 提 升 系统 对 外 
服务 的 能 

。 系统 平台 化 

将 相同 的 业务 逻辑 抽象 出 来 ， 形 成 公共 的 服务 组 件 ， 采 用 平台 化 的 策略 ,形成 基础 平 
台 ， 并 且 针 对 业务 功能 的 差异 ， 进 行 个 性 化 的 配置 和 开发 ， 从 而 实现 系统 的 灵活 性 和 扩展 
性 ， 支 持 快速 产品 的 研发 。 

。 系统 整合 化 

将 相同 的 业务 组 件 抽象 出 来 ， 统 一 建设 ， 在 此 基础 上 ， 考 虑 系统 差异 化 的 需求 。 例 如 数 
据 报 送 规则 的 差异 、 产 品 加 工 逻 辑 的 差异 和 服务 对 象 的 差异 等 。 实 现 机 构 、 用 户 、 权 限 等 公 
共 组 件 和 技术 组 件 的 整合 。 

。 适度 松 耦合 

减少 组 件 间 的 相互 依赖 ， 提 高 系统 的 故障 防范 和 隔离 的 能 力 ， 同 时 参考 最 佳 实践 ， 结 合 
业务 的 特点 ， 合 理 划 分 应 用 架构 的 各 个 层次 ， 提 高 组 件 的 内 聚 性 。 

4. 创建 应 用 架构 的 整体 步骤 

如 图 1-7 所 示 。 以 业务 战略 为 出 发 点 ， 形 成 企业 的 业务 能 力 和 组 件 化 业务 模型 ， 参 考 
业务 需求 ， 梳 理 未 来 应 用 功能 模型 ， 在 应 用 架构 设计 原则 的 指导 下 ， 形 成 未 来 的 应 用 架构 ， 
最 后 进行 未 来 应 用 场景 的 验证 。 
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未 来 应 用 组 合 


图 1-7 创建 应 用 架构 的 整体 步 又 





5. 应 用 架构 相关 案例 

某 金 融 机 构 应 用 架构 示例 ， 如 下 图 所 示 : 

(1) 客户 服务 层 

客户 可 以 包括 对 公 客 户 和 个 人 客户 ， 包 括 综合 前 端 服 务 平 台 、 网 上 银行 系统 、 电 话 银行 
系统 、 自 助 服务 、 手 机 银行 系统 等 内 容 。 

(2) 渠道 整合 层 

渠道 整合 层 主 要 包括 综合 前 置 平台 ，ECIF 等 。 

(3) 业务 处 理 层 

业务 处 理 层 主要 包括 : 总 账 系统 、 核 心 业务 系 统 、 信 和 贷 管 理 等 。 其 中 总 账 系统 主要 是 对 
整个 银行 财务 状况 的 管理 。 核 心 业务 系统 包括 总 账 接 口 、 瘦 核心 和 应 用 接口 。 总 账 系统 通过 
总 账 接 口 与 核心 业务 系统 相连 。 瘦 核心 主要 是 银行 的 会 计 核 算 功 能 ， 账 户 管理 和 客户 信息 管 
理 等 。 

应 用 架构 不 是 本 书 重点 ， 所 以 不 做 闭 述 。 

六 、 数 据 架构 

1. 什么 是 数据 架构 

从 概念 上 来 说 ， 数 据 架 构 是 指 与 数据 相关 的 各 种 架构 组 件 的 排列 顺序 ， 其 中 架构 组 件 主 
要 实现 数据 的 存储 、 交 互 、 分 布 、 流 转 和 应 用 等 功能 。 

数据 架构 的 核心 主要 包括 数据 层次 的 划分 、 数 据 的 分 布 、 各 层次 的 数据 模型 和 数据 的 转 
换 等 。 数 据 架构 是 企业 架构 中 最 重要 的 组 成 部 分 之 一 ， 也 是 本 书 的 重点 内 容 之 一 。 

数据 架构 主要 研究 和 解决 如 何 管理 和 使 用 数据 。 主 要 内 容 包 括 数据 从 源 系 统 经 过 各 种 处 
理 、 加 工 而 达到 目标 系统 的 布局 与 流向 的 框架 结构 。 

数据 架构 的 目标 是 为 了 实现 企业 数据 的 标准 化 、 一 致 性 和 准确 性 ， 在 此 基础 上 ， 充 
分 挖掘 数据 的 价值 ， 有 效 支 持 企业 的 数据 管理 和 经 营 决 策 分 析 ， 实 现 企业 数据 的 统一 规 
划 体 系 。 

数据 架构 可 以 帮助 企业 消除 信息 孤岛 ， 建 立 一 个 共享 、 通 用 的 企业 级 基础 数据 平台 。 

2. 数据 架构 包含 的 内 容 

数据 架构 主要 包含 数据 定义 、 数 据 分 类 、 数 据 分 布 、 数 据 CRUD 等 内 容 。 
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e 数据 定义 

所 谓 数据 定义 就 是 数据 模型 。 数 据 模 型 是 指 用 实体 、 属 性 及 其 关系 对 企业 生产 运行 过 程 
中 涉及 的 所 有 业务 概念 和 逻辑 规则 进行 统一 的 定义 、 命 名 ， 包 括 数据 概念 模型 、 数 据 逻 辑 模 
型 、 数 据 物 理 模型 。 

数据 模型 是 数据 架构 规划 中 最 重要 的 内 容 之 一 ， 良 好 的 数据 模型 可 以 反映 业务 模式 的 本 
质 ， 确保 数 据 架 构 为 业务 需求 提供 全 面 、 一 致 、 完 整 的 高 质量 数据 ， 从 架构 规划 以 及 设计 层 
面 ， 明 确 数据 概念 模型 ， 制 定数 据 逻 辑 模型 和 物理 模型 。 数 据 模型 是 业务 人 员 、IT 人 员 进 
行 沟通 的 一 套 语 言 。 

e 数据 分 类 

数据 分 类 是 根据 业务 特征 对 数据 进行 归 类 和 划分 ， 用 层级 列表 的 方式 展现 业务 的 规则 ， 
数据 分 类 的 规范 需要 满足 各 种 数据 需求 对 数据 组 织 的 要 求 ， 它 独立 于 具体 的 数据 模型 和 数据 
分 布 。 

e 数据 分 布 

数据 分 布 包 括 数据 的 业务 分 布 与 数据 的 系统 分 布 。 数 据 分 布 主要 分 析 数 据 在 业务 各 个 环 
节 中 的 创建 、 引 用 、 更 新 和 删除 ， 并 且 根 据 业 务 对 数据 的 处 理 特点 ， 规 划 合 理 的 数据 分 布 ， 
考虑 相关 的 数据 流向 ， 以 满足 相关 的 业务 需求 。 

在 规划 设计 数据 分 布 的 时 候 ， 我 们 需要 考虑 以 下 几 个 方面 。 

(D 明确 系统 不 同位 置 之 间 的 数据 定位 ， 以 及 数据 的 内 容 和 数据 流向 。 

Q 考虑 海量 数据 在 不 同 数 据 库 之 间 的 快速 增 量 迁移 。 

@) 考虑 数据 的 快速 加 工 。 

册 能 够 适应 数据 采集 的 多 元 化 。 

@) 需要 考虑 特殊 情况 下 的 数据 纠 错 更 

。 数 据 CRUD 

CRUD 是 建立 (Create) 、 读 取 (Read) 、 更 新 (Update) 及 删除 (Delete) 这 4 项 操作 的 
英文 缩写 。 数 据 的 CRUD 可 以 明确 系统 核心 的 数据 由 哪些 系统 产生 ， 哪 些 系统 有 权限 读 取 
这 些 核心 数据 ， 而 这 些 数据 的 更 新 和 删除 的 权限 属于 哪些 系统 ， 数 据 CRUD 是 为 了 确保 数 
据 的 安全 性 和 一 致 性 。 

。 数据 管控 

数据 管控 包含 数据 质量 管理 、 数 据 生命 周期 管理 、 数 据 标准 管理 、 元 数据 管理 等 多 个 管 
控 专项 ， 如 图 1-8 所 示 。 


















































数据 标准 管理 





数据 质量 管理 











图 1-8 数据 管控 包含 的 内 容 





。 数据 质量 管理 
数据 质量 管理 是 指 通过 一 系列 技术 手段 或 者 管理 手段 提高 数据 质量 的 过 程 。 数 据 质量 管 
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理 是 循环 管理 的 过 程 ， 目 的 是 通过 提升 数据 的 使 用 价值 ， 为 系统 启 得 经 济 效 益 。 

。 数据 生命 周期 管理 

数据 生命 周期 管理 是 按照 数据 的 业务 属性 划分 数据 的 几 个 阶段 : 数据 的 创建 、 数 据 的 使 
用 、 数 据 的 归档 和 数据 的 销毁 。 

数据 生命 周期 管理 的 目的 是 为 了 满足 对 历史 数据 查询 的 要 求 ， 减 少数 据 元 余 ， 提 高 数据 
的 一 致 性 ， 并 且 提 升 系统 的 性 能 和 响应 速度 。 减 少数 据 存 储 、 运 维 等 方面 的 基础 设施 投入 。 

e 数据 标准 管理 

数据 标准 是 统一 对 数据 的 理解 和 使 用 ， 为 数据 的 业务 属性 、 业 务 规则 、 管 理 属 性 和 技术 
属性 制定 统一 的 规范 。 
通过 数据 标准 管理 ， 可 以 加 强 对 业务 的 标准 化 工作 ， 强 化 对 业务 的 管理 ， 完 成 对 重点 数 
据 的 统一 管理 。 数 据 标准 管理 的 原则 : 保证 数据 标准 命名 、 编 码 的 唯一 性 ， 维 护 数据 标准 的 
权威 性 和 稳定 性 ， 保 证 数据 标准 的 准确 性 和 可 执行 性 。 

。 元 数据 管理 

元 数据 管理 是 指 管理 数据 的 数据 ， 负 责 记 录 和 管理 系统 中 所 有 数据 的 定义 、 规 则 、 规 范 
和 流程 。 元 数据 管理 可 以 清晰 、 直 观 地 了 解数 据 的 来 源 、 变 化 过 程 等 信息 。 当 数据 发 生变 化 
时 ， 用 户 可 以 借助 元 数据 管理 工具 分 析出 这 些 数 据 变 化 带 来 的 影响 。 

3. 数据 架构 的 目标 

实现 企业 数据 的 标准 化 、 一 致 性 、 准 确 性 和 可 靠 性 。 制 定 实 现 企业 数据 统一 管理 的 规划 
体系 。 有 效 支 撑 企业 信息 数据 管理 和 经 营 决 策 分 析 。 

4. 创建 数据 架构 的 整体 步骤 

数据 架构 对 于 企业 有 效 地 分 配 、 部 署 和 使 用 数据 ， 实 现 数据 的 组 织 、 共 享 ， 从 而 保证 数 
据 在 各 系统 之 间 的 一 致 性 、 有 效 性 和 完整 性 都 有 重要 的 指导 意义 。 

创建 数据 架构 的 整体 步骤 〈 见 图 1-9) 包括 在 了 解数 据 架 构 现状 的 基础 上 ， 参 考 系 统 需 
求 ， 借 鉴 行业 先进 的 数据 分 类 方法 和 参考 架构 ， 分 别 从 三 个 体系 进行 数据 架构 的 规划 。 



























































图 1-9 创建 数据 架构 的 整体 步 又 


5. 数据 架构 规划 工作 思路 及 方法 

首先 ， 数 据 架 构 从 业务 特征 和 业务 需求 出 发 ， 明 确 数据 主题 域 的 划分 和 数据 的 分 类 ， 主 
题 域 是 从 较 高 层级 对 业务 进行 抽象 和 归纳 ， 是 从 概念 层面 上 对 系统 的 全 面 描述 ， 需 要 考虑 业 
务 的 扩展 性 。 主 题 域 划 定 后 ， 一 般 较 少 变更 。 
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其 次 ， 进 行 数 据 模型 的 设计 。 对 于 目标 数据 架构 来 说 ， 一 般 流程 是 参考 行业 内 先进 的 架 
构 经 验 进行 目标 名 & 构 的 设计 ， 包 括 对 数据 存储 、 分 布 和 流转 的 设计 。 
最 后 ， 对 数据 分 布 和 流转 进行 场景 验证 ， 同 时 需要 考虑 各 个 阶段 的 数据 管控 的 要 求 。 
具体 内 容 如 图 1-10 所 示 。 


业务 需求 和 业务 特征 一 一 数据 主题 域 一 一 = 数据 分 类 ” 一 一 ”数据 模型 ” 、 














图 1-10 数据 架构 规划 工作 思路 及 方法 





6. 数据 架构 原则 

数据 架构 的 原则 主要 包括 灵活 性 原则 、 高 效 性 原则 、 可 扩展 性 原则 、 数 据 共享 原则 、 数 
据 可 用 性 原则 、 数 据 定 义 标准 原则 、 数 据 安全 性 原则 。 

e 灵活 性 原则 

对 于 数据 的 组 织 及 其 架构 的 划分 要 充分 考虑 灵活 性 。 例 如 ， 源 数据 采集 格式 需要 考虑 不 
同业 务 的 需求 ， 能 够 灵活 地 适应 业务 的 变更 。 

。 高 效 性 原则 

需要 考虑 数据 校 验 和 数据 加 载 的 高 效 性 。 例 如 ， 各 个 数据 库 之 间 的 数据 迁移 、 产 品 加 工 
和 产品 的 快速 生成 都 需要 考虑 高 效 性 。 

e 可 扩展 性 原则 

数据 架构 整体 规划 要 充分 考虑 系统 未 来 的 可 扩展 性 ， 在 新 技术 或 者 新 需求 、 新 业务 出 现 
时 ， 能 够 尽量 减少 数据 架构 的 变更 。 

e 数据 共享 原则 

数据 在 系统 内 可 以 共享 ， 相 同 的 数据 指标 需要 遵循 唯一 性 ， 强 化 对 公共 需求 的 加 工 。 

e 数据 可 用 性 原则 

对 数据 的 采集 以 能 够 支撑 业务 需求 为 基础 。 

e 数据 定义 标准 原则 

数据 项 必须 有 易 理 解 的 业务 定义 ， 使 用 户 理解 数据 的 意义 ， 同 时 确保 数据 的 定义 遵循 统 
一 标准 ， 而 且 数据 标准 需要 满足 完整 性 、 正 确 性 、 一 致 性 等 要 求 。 

。 数据 安全 性 原则 

数据 按照 非 功 能 性 要 求 ， 定 义 数据 的 安全 级 别 、 安 全 管理 等 级 。 并 且 区 分 敏感 数据 和 非 
敏感 数据 。 
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7. 数据 架构 相关 案例 

数据 架构 从 数据 的 产生 、 加 工 、 使 用 和 管理 的 视角 来 描述 业务 系统 。 数 据 架 构 的 规划 主 
要 包括 以 下 几 个 方面 : 

1) 数据 分 类 和 数据 模型 化 ， 从 数据 业务 特性 出 发 ， 规 划 数 据 主题 域 ， 并 且 在 数据 主题 
域 的 基础 上 对 数据 进一步 分 类 。 然 后 根据 数据 分 类 ， 对 关键 属性 和 核心 数据 关系 模型 化 ， 形 
成 高 阶 的 数据 模型 。 

2) 根据 行业 先进 的 数据 架构 ， 结 合 业务 数据 的 加 工 特征 ， 重 点 考虑 数据 架构 的 灵活 性 、 
可 扩展 性 和 高 效 性 等 几 个 方面 ， 规 划 目 标 数据 架构 。 

3) 根据 数据 分 类 ， 规 划 数 据 分 类 在 目标 架构 逻辑 数据 库存 储 上 的 分 布 与 流转 ， 从 而 对 
目标 数据 架构 进行 验证 。 

4) 结合 业务 管理 要 求 ， 规 划 系 统 的 数据 治理 架构 。 

七 、 技 术 架 构 

1. 技术 架构 概念 

技术 架构 是 开架 构 中 比较 底层 的 架构 ， 它 定义 了 如 何 建立 一 个 全 运行 环境 来 支持 数据 
架构 和 应 用 架构 。 

技术 架构 主要 描述 业务 、 数 据 、 应 用 服务 部 署 的 基础 设施 能 力 ， 通 过 技术 架构 可 以 建立 
一 个 还 平台 ， 涉 及 对 技术 的 采用 、 基 础 设施 的 建立 、 产 品 的 选择 、 系 统 的 管理 等 方面 。 

技术 架构 需要 考虑 业务 架构 、 数 据 架 构 和 应 用 架构 ， 包 括 一 些 软 硬 件 、 网 络 技术 等 方 
面 。 技 术 架 构 的 设计 目标 就 是 参考 成 熟 的 技术 规范 ， 打 造 一 个 安 人 全、 可靠、 灵活 、 易 维护 ， 
并 且 支 持 业 务 连 续 性 的 开 技术 架构 。 

2. 技术 架构 的 目标 

1) 针对 未 来 系统 的 技术 架构 ， 制 定 技 术 架 构 设 计 规范 、 实 施 规划 、 决 策 支 持 等 内 容 。 

2) 通过 技术 架构 ， 提 高 系统 的 灵活 性 、 扩 展 性 。 

3) 通过 标准 化 、 组 件 化 和 平台 化 技术 打造 灵活 、 可 扩展 的 平台 ， 这 样 可 以 快速 地 满足 
业务 的 变化 。 

3. 技术 组 件 的 识别 

可 以 根据 技术 架构 的 相关 案例 和 业务 组 件 需求 ， 分 层次 去 识别 系统 的 技术 组 件 。 技 术 组 件 的 
描述 见 表 1-1。 











表 1-1 技术 组 件 的 描述 







































































技术 组 件 名 称 技术 组 件 功能 描述 
调度 服务 提供 统一 的 任务 调度 服务 接口 ， 实 现 基于 平台 的 作业 调度 管理 功能 
元 数据 管理 元 数据 是 用 于 描述 数据 及 其 环境 的 数据 。 一 般 来 说 ， 它 有 两 方面 的 用 途 ， 即 业务 元 
数据 和 技术 元 数据 
加 解密 提供 标准 的 加 解密 技术 及 接口 ， 能 够 满足 数据 安全 传输 、 存 储 的 要 求 
缓存 管理 基于 成 熟 的 缓存 框架 ， 同 时 提供 数据 缓存 管理 ， 提 高 数据 的 使 用 和 存储 效率 





























4. 技术 架构 原则 

技术 架构 的 原则 如 图 1-11 所 示 ， 主 要 包括 以 下 几 个 方面 的 内 容 : 

(1) 安全 、 可 靠 性 原则 

从 应 用 组 件 到 物理 基础 架构 ， 需 要 充分 考虑 系统 的 可 用 性 ， 以 保证 系统 运行 的 连续 性 和 
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符合 行业 信息 化 建设 。 平稳 过 流 
相关 规范 全 
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图 1-11 技术 架构 原则 











完整 性 。 安 全 性 应 该 遵循 相关 安全 政策 、 标 准 和 法 规 。 

(2) 灵活 性 及 扩展 性 原则 

满足 灵活 加 工 产 品 的 要 求 ， 业 务 变更 或 新 功能 开发 能 够 在 短 时 间 内 完成 ， 能 够 适应 业务 
量 的 变化 。 

(3) 资产 复 用 原则 

对 已 有 的 成 熟 技术 、 规 划 经 验 等 相关 资产 进行 提炼 和 重用 ， 降 低 开 发 与 维护 的 成 本 。 抽 
取 公 共 技 术 组 件 ， 使 架构 能 够 满足 不 同业 务 之 间 差 异化 的 需求 ， 支 持 业 务 的 可 持续 发 展 。 

(4) 采用 成 熟 技术 原则 

选用 主流 技术 ,采用 成 熟 的 技术 平台 和 开发 工具 ， 引 入 已 验证 过 的 开发 框架 ， 提 升 开 发 
效率 ,平衡 成 熟 产品 技术 和 自主 开发 能 力 。 基 于 成 熟 产品 及 实施 案例 ， 选 择 合适 的 技术 
路 线 。 

(5) 平稳 过 渡 原 则 

能 够 支撑 业务 的 连续 性 ， 保 证 未 来 系统 的 过 渡 和 切换 必须 是 阶段 化 可 控 的 和 低 风险 的 。 

(6) 符合 行业 信息 化 建设 相关 规范 

遵循 统一 认证 规范 、 容 灾 规 范 、 安 全 规范 、 广 域 网 安全 规范 等 ， 加 强 系统 设计 、 开 发 等 
规范 管理 ， 在 已 有 规范 的 基础 上 形成 并 完善 整体 架构 方案 。 

5. 技术 架构 规划 工作 思路 及 方法 

技术 架构 规划 的 工作 思路 和 方法 如 图 1-12 所 示 。 





es l 子 系统 的 划分 
应 用 组 件 模型 La 逻辑 、 物 理 部 署 规划 


一 W)) — 
国 


图 1-12 技术 架构 规划 工作 思路 及 方法 
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1) 参考 先进 的 技术 架构 ， 结 合 现 有 的 开 环境 ， 采 用 分 层 的 方式 设计 目标 技术 架构 。 目 
标 技术 架构 提供 高 度 的 灵活 性 和 可 扩展 性 。 

2) 参考 技术 架构 和 已 定义 的 业务 组 件 需 求 ， 分 层次 识别 未 来 系统 关键 技术 组 件 。 

3) 根据 应 用 架构 组 件 分 组 ， 按 照 业 务 特点 和 技术 实现 考量 ， 划 分 子 系统 。 

4) 根据 技术 组 件 的 服务 能 力 ， 按 照 SOA 的 思路 划分 为 几 个 服务 平台 ， 为 规划 子 系统 提 
供 基 础 的 公共 服务 。 

5) 子 系统 的 划分 也 为 了 验证 服务 平台 中 的 服务 能 力 是 和 否 有 缺失 。 间 接 验证 技术 组 件 是 
否 有 缺失 。 

6) 提供 标准 化 服务 的 技术 组 件 与 子 系统 的 结合 ， 形 成 完整 的 目标 技术 架构 。 

7) 最 后 参考 最 佳 实践 ， 对 逻辑 部 署 和 物理 部 署 进行 规划 。 

技术 架构 主要 包括 安全 管理 、 集 成 服务 、 接 和 渠道、 公共 服务 等 方面 的 内 容 ， 如 
图 1-13 所 示 。 





图 1-13 技术 架构 


(1) 安全 管理 

安全 管理 主要 包括 目录 服务 、 身 份 管理 、 用 户 认证 & 授权 、 单 点 登录 、 访 问 控制 、 审 
计 服 务 、 数 据 安全 、PKI、 操 作 安 全 。 

(2) 集成 服务 

集成 服务 主要 包括 内 、 外 部 接口 ， 数 据 整 合 和 拆 分 。 

(3) 接 入 渠道 

接 入 渠道 主要 包括 客服 中 心 、 信 件 、E - mail、 互 联网 、 手 机 。 

(4) 公共 服务 

公共 服务 主要 包括 信息 服务 总 线 、 文 件 交 换 服 务 、 流 程 引擎、 规则 引擎 、 批 量 作业 服 
务 、 审 计 服务 负载 均衡 、 存 储 管理 及 恢复 。 

其 中 主要 的 技术 组 件 包括 网 络 服务 、 系 统管 理 服务 、 测 试 和 开发 服务 、 平 台 服务 等 内 容 。 

(1) 网 络 服务 

网 络 服务 主要 包括 网 络 管理 、 网 络 安 全 、 传 输 服务 、 网 络 协议 、 网 关 服 务 、 路 由 服务 、 
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网 络 加 速 服务 、 内 容 网 络 服务 。 

(2) 系统 管理 服务 

系统 管理 服务 主要 包括 配置 管理 、 网 络 管理 、 软 件 分 发 、 问 题 管理 、 账 户 管理 、 高 可 用 
性 管理 、 监 控 及 其 优化 管理 。 

(3) 测试 和 开发 服务 

测试 和 开发 服务 主要 包括 开发 环境 、 开 发 工具 、 优 先 级 管理 、 测 试 环境 。 

(4) 平台 服务 

平台 服务 主要 包括 数据 库 服务 、 打 印 服务 、 其 他 设备 服务 、 机 房 基本 设备 、UPS 、 布 线 
等 技术 、 服 务 器 平台 架构 、 高 可 用 性 架构 、 灾 难 备份 机 制 。 

技术 架构 从 应 用 架构 和 数据 架构 实现 的 角度 进行 规划 。 技 术 架 构 规 划 过 程 主要 包括 以 下 
几 个 步 又 。 

1) 参考 技术 架构 ， 结 合 现状 分 析 和 技术 架构 原则 ， 识 别 各 种 技术 组 件 。 

这 些 组 件 可 能 是 应 用 架构 或 数据 架构 中 某 些 组 件 的 功能 实现 ， 也 可 能 是 作为 一 个 系统 必 
须 具备 的 技术 组 件 。 针 对 这 些 技 术 组 件 ， 考 虑 各 种 成 熟 软 件 实现 技术 。 

2) 根据 子 系统 划分 原则 ， 将 系统 划分 为 多 个 子 系统 和 技术 平台 。 

这 些 技术 平台 由 技术 组 件 构 成 。 通 过 技术 平台 构建 多 个 子 系统 。 针 对 每 个 子 系统 ， 定 义 
包含 的 应 用 组 件 和 俱 辑 数据 存储 ， 并 描述 每 个 子 系统 与 技术 组 件 之 间 的 关系 ， 保 证 技术 平台 
所 包含 的 技术 组 件 能 够 很 好 地 支持 所 有 应 用 组 件 的 技术 实现 。 

3) 系统 的 实现 一 般 分 为 展现 交互 层 、 逻 辑 执行 层 和 数据 存储 层 。 

在 系统 部 署 上 由 不 同 的 软件 技术 支持 。 按 照 方法 论 ， 通 常 将 部 署 单元 分 为 三 大 类 : 展现 
部 署 单元 、 执 行 部 署 单元 和 数据 部 署 单元 ， 根 据 多 个 子 系统 和 技术 平台 所 包含 的 组 件 ， 识 别 
对 应 的 部 署 单元 。 并 根据 组 件 之 间 的 关系 定义 部 署 单元 之 间 的 关系 。 

4) 根据 位 置 、 用 户 分 布 、 网 络 连接 及 接 和 人 点 等 情况 ， 结 合 参考 架构 和 用 户 的 IT 环境 ， 
规划 系统 的 逻辑 架构 。 

5) 参考 逻辑 架构 ， 结 合 真实 的 开 环境 ， 包 括 开 发 、 测 试 、 生 产 环境 ， 可 以 采用 诸如 虚 
拟 化 或 者 资源 池 技术 ， 规 划 物 理 架 构 和 基础 架构 。 

6. 技术 架构 相关 案例 

某 金 融 机 构 技 术 架 构 相 关 案 例如 图 1-14 所 示 。 

其 中 技术 架构 包括 : 渠道 屋 、 应 用 服务 层 、 公 共 技 术 服 务 层 、 集 成 服务 层 、 软 件 服 务 层 
和 基础 设施 层 。 例 如 ， 软 件 服 务 层 中 的 内 容 管理 是 为 未 来 系统 提供 更 广泛 的 非 结 构 化 内 容 进 
行 存储 、 访 问 和 管理 ， 包 括 业 务 中 涉及 的 影像 ， 各 种 格式 的 办 公文 档 ，XML、HTML 文件 ， 
各 类 报表 、 图 像 和 音频 /视频 信息 等 。 

八 、 企 业 总 体 规划 总 结 

企业 总 体 规 划 包 括 企业 战略 和 企业 架构 两 个 部 分 。 企 业 战 略 描述 的 是 企业 的 目标 。 企 业 
架构 描述 的 是 业务 流程 、 运 车模 式 、 关 键 业 务 指标 和 企业 IT 系统 需要 完成 哪些 工作 等 内 容 。 

企业 战略 决定 企业 架构 的 模型 ， 同 时 企业 架构 又 支持 企业 战略 的 实现 。 如 果 我 们 把 企业 
战略 看 成 是 一 个 城市 的 发 展 方向 和 战略 目标 ， 包 括 对 城市 的 定位 等 方面 。 那 么 企业 架构 就 是 
对 城市 的 设计 规划 ， 包 括 城市 的 组 成 ， 每 部 分 是 如 何 构建 的 ， 以 及 它们 之 间 的 关系 是 什么 。 

从 本 质 上 来 讲 ， 企 业 架 构 是 连接 企业 战略 和 开 项目 实施 的 桥梁 。 通 过 企业 架构 的 规划 ， 
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歼 据 集成 [应 用 生成 ,服务 县 
服务 过户 || 存储 且 机 
拟 化 化 = 











图 1-14 某 金 融 机 构 技 术 架 构 案 例 


包括 在 业务 战略 和 IT 战略 理解 的 基础 上 ， 进 行 自 项 向 下 的 设计 ， 形 成 稳定 的 全 环境 ， 从 而 
将 战略 、 业 务 流程 和 上 有 具体 的 IT 规划 三 者 之 间 紧 密 的 联系 起 来 。 

我 们 参考 企业 架构 的 方法 论 ，IT 架构 是 业务 发 展 和 业务 战略 的 实现 提供 架构 支撑 和 保障 。 
业务 架构 可 以 作为 整个 开 架构 的 核心 输入 。 业 务 架构 和 了 T 架构 是 相互 依赖 ， 相 互 促进 的 关 
系 。 在 开 系 统 的 设计 和 开发 过 程 中 ， 业 务 架 构 可 以 提供 完整 的 业务 视图 和 业务 要 求 ， 指 导 IT 
架构 的 实现 ， 同 时 IT 架构 保障 业务 架构 的 实现 。 业 务 架 构 主 要 包含 了 业务 流程 、 业 务 对 象 、 
地 域 和 价值 管理 的 描述 ， 而 开架 构 主 要 包含 了 应 用 架构 、 数 据 架构 和 技术 架构 等 内 容 。 

业务 架构 对 应 用 架构 和 数据 架构 提出 业务 需求 。 而 应 用 架构 为 业务 架构 提供 应 用 支持 ， 
数据 架构 为 业务 架构 提供 数据 支持 。 同 时 技术 架构 是 数据 架构 、 应 用 架构 到 IT 系统 的 落地 
和 实现 。 应 用 架构 和 数据 架构 是 业务 架构 落地 到 系统 架构 的 一 个 重要 阶段 。 在 企业 架构 中 ， 
数据 架构 是 核心 ， 也 是 本 书 的 重点 内 容 之 一 ， 因 为 数据 是 信息 系统 的 重要 资源 ， 在 构建 IT 
架构 的 时 候 ， 首 先 考虑 数据 架构 对 业务 的 支持 ， 理 想 的 IT 架构 是 数据 驱动 的 。 数 据 架 构 帮 
助 企业 消除 信息 孤岛 ， 建 立 一 个 共享 、 一 致 的 企业 数据 基础 平台 。 

应 用 架构 是 为 业务 提供 哪些 应 用 和 功能 ， 它 主要 连接 业务 架构 中 的 流程 、 业 务 组 件 、 功 
能 和 人 员 等 ， 同 时 也 能 连接 数据 架构 中 的 数据 管理 部 分 ， 还 能 够 提出 对 技术 架构 和 基础 设施 





















































复 的 ， 难 以 共享 的 应 用 系统 ， 应 用 架构 在 IT 架构 中 也 发 挥 着 重要 的 作用 。 
技术 架构 是 全 架构 中 比较 底层 的 架构 ， 它 用 来 支持 数据 和 应 用 ， 以 保证 业务 的 正常 运 
转 。 技 术 架 构 需 要 考虑 技术 的 采用 ， 未 来 技术 的 发 展 等 因素 。 








1.2 国内 商业 银行 战略 规划 和 架构 状况 剖析 





在 过 去 10 年 间 ， 我 国 银行 业 在 信息 化 建设 过 程 中 ， 已 经 基本 形成 了 完整 的 框架 体系 ， 
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建成 了 面向 业务 的 新 一 代 综 合 业 务 系统 。 特 别 是 “十 一 五 ”期 间 ， 以 四 大 行 ( 工 、 农 、 建 、 
中 ) 为 代表 的 国有 银行 ， 相 继 提 出 了 建设 国际 一 流 银行 的 战略 目标 ， 其 他 股份 制 银行 也 提 
出 了 相应 的 发 展 战 略 ， 逐 步 完 善 了 符合 本 行 特色 的 战略 和 架构 。 

总 体 来 说 ， 无 论 是 国有 银行 还 是 股份 制 商业 银行 ， 都 已 经 认识 到 了 战略 规划 和 架构 的 重 
要 性 ， 同 时 整个 银行 业 基 本 上 实现 了 核心 业务 的 “数据 大 集中 ”， 提 升 了 银行 的 抗灾 难 能 
力 ， 并且 随 着 银行 业务 的 增加 ， 对 产品 的 创新 和 业务 流程 的 改进 提出 了 更 高 的 要 求 ， 通 过 一 
系列 的 建设 和 升级 工作 ， 商 业 银 行 的 业务 功能 逐步 完善 ， 效 益 不 断 增加 。 

但 是 随 着 银行 信息 化 建设 的 深入 发 展 ， 面 临 的 问题 也 逐渐 暴露 出 来 ， 在 应 用 系统 建设 方 
面 ， 各 个 银行 都 追求 业务 系统 的 快速 开发 和 产品 的 快速 上 市 ， 业 务 部 门 和 技术 部 门 之 间 存 在 
着 孤立 的 现象 ， 造 成 了 部 分 银行 的 系统 数目 繁多 ， 系 统 之 间 缺 少 企业 级 整体 架构 的 思想 ， 如 
图 1-15 所 示 。 











缺少 企业 级 整体 架构 的 思想 (于 一 








图 1-15 银行 信息 化 面临 的 问题 


在 数据 架构 方面 ， 数 据 被 分 散 到 各 个 应 用 系统 之 间 ， 数 据 质 量 较 差 ， 数 据 的 使 用 缺少 规 
范 。 同 时 部 分 银行 对 战略 规划 的 概念 和 认识 还 缺少 统一 性 ， 很 多 银行 都 处 于 比较 片面 的 阶 
段 ， 从 而 影响 战略 规划 对 日 常 系统 建设 的 指导 作用 ， 因 为 战略 规划 和 业务 规划 的 契合 度 不 
高 ， 缺 少 IT 战略 对 于 业务 战略 的 支持 和 业务 战略 对 IT 战略 的 指导 。 

因此 ， 在 战略 规划 的 过 程 中 ， 需 要 业务 部 门 和 全 部门 共同 参与 ， 相 互 合 作 ， 达 成 业 
务 和 I 技术 部 门 的 共识 。 业 务 部 门 和 技术 部 门 总 是 存在 着 看 不 见 的 鸿沟 ， 业 务 部 门 经 常 
抱怨 技术 无 法 适应 市 场 的 需求 ， 而 技术 部 门 则 经 常 抱怨 业务 需求 的 不 确定 ， 需 求 变 更 过 
于 频繁 。 作 为 技术 部 门 常常 被 动 地 接收 业务 需求 ， 疲 于 应 付 ， 更 谈 不 上 技术 的 创新 和 引 
领 业务 的 发 展 。 

以 上 最 主要 的 原因 之 一 就 是 缺乏 从 战略 角度 出 发 的 总 体 架构 规划 ， 当 业务 部 门 提出 
不 同 的 业务 需求 ， 开 技术 部 门 则 以 不 同 的 技术 框架 和 软 硬 件 去 满足 业务 ， 各 个 系统 相互 
分 散 ， 在 银行 内 部 形成 了 一 个 个 的 “信息 孤岛 "， 使 银行 的 维护 成 本 大 幅 提 高 ， 不 能 有 效 
地 利用 数据 资源 ， 从 而 无 法 利用 这 些 宝 贵 的 资源 去 推动 业务 向 前 发 展 。 从 业务 上 来 说 ， 
由 于 缺乏 对 全 局 的 把 握 ， 无 法 形成 统一 的 业务 视图 ， 降 低 了 业务 的 灵活 性 ， 也 就 无 法 文 
撑 日 益 复 杂 的 业务 。 

基于 以 上 的 现状 分 析 ， 我 们 从 管理 的 角度 来 说 ， 应 该 从 制度 上 消除 技术 部 门 和 业务 部 门 
之 间 的 “隔膜 ”， 从 管理 机 制 上 把 并 技术 部 门 和 业务 部 门 的 目标 统一 起 来 ， 使 业务 部 门 除 














79 


了 关注 业务 和 经 营 指 标 外 ， 也 关心 具体 的 操作 流程 、 应 用 架构 、 数 据 架 构 和 技术 风险 等 内 
容 。 技 术 部 门 除了 考虑 技术 实现 外 ， 也 应 该 考虑 项 目的 效益 ,使 技术 融入 业务 ， 建 立 相 应 的 
考核 机 制 和 激励 措施 ， 如 图 1-16 所 示 。 


IT 技术 部 门 业务 部 站 








图 1-16 ”消除 技术 部 门 和 业务 部 门 之 间 的 “隔膜 ” 


在 IT 技术 部 门 中 ， 首 先 在 需求 分 析 阶 段 ， 统 筹 和 优化 整体 的 业务 需求 。 然 后 根据 业务 
需求 ， 规 划 项 目的 设计 、 开 发 和 运 维 等 活动 。 技 术 部 门 应 该 主动 了 解 需求 ， 不 仅 要 承担 技术 
的 角色 ， 也 要 考虑 业务 解决 方案 和 对 业务 流程 的 整合 。 技 术 部 门 的 真正 价值 就 是 利用 已 有 的 
IT 技术 提供 整体 的 业务 解决 方案 ， 帮 助 银 行进 行业 务 流程 优化 和 改造 。 

在 业务 部 门 中 ， 不 仅 需要 考虑 业务 流程 的 优化 、 业 务 的 集中 处 理 ， 更 应 该 将 IT 战略 和 
银行 的 业务 战略 融合 到 一 起 ， 从 战略 、 管 理 变 革 的 角度 降低 IT 的 风险 。IT 与 业务 的 融合 ， 
可 以 促使 商业 银行 适应 市 场 环 境 的 变化 ， 同 时 也 相应 地 促进 了 业务 的 发 展 ， 提 高 了 商业 银行 
的 邯 争 力 。 

因此 ,金融 机 构 迫 切 需 要 企业 架构 的 方法 论 来 解决 由 于 信息 化 建设 带 来 的 各 种 问题 。 在 
银行 的 信息 化 建设 过 程 中 ,企业 架构 越 来 越 受到 大 中 小 银行 的 重视 ， 它 们 已 经 开始 从 整体 架 
构 上 规划 IT 系统。 

从 战略 规划 的 角度 来 讲 ， 需 要 遵循 以 下 几 个 原则 : 

(1) 业务 和 了 IT 的 高 度 融 合 

对 于 各 个 银行 来 说 ，IT 战略 规划 要 坚持 从 自身 的 业务 战略 出 发 ,结合 行 业 的 发 展 趋势 ， 
全 面 考 虑 信息 化 建设 的 各 项 IT 和 业务 工作 ， 实 现 业 务 和 IT 的 高 度 融 合 。 

(2) 借鉴 先进 经 验 

根据 银行 的 信息 化 战略 ， 积 极 吸取 国内 外 先进 的 理念 、 整 体 框 架 和 先进 技术 ， 充 分 利用 
已 有 的 资源 ， 提 升 银行 的 创新 能 力 ， 从 而 推动 业务 的 发 展 。 

(3) 分 阶段 重点 实施 

言 息 化 的 建设 不 是 一 跤 而 就 的 ， 而 是 逐步 完善 的 过 程 ， 根 据 业务 发 展 的 重点 方向 ， 利 用 
现 有 的 资源 ， 分 阶段 重点 实施 系统 规划 。 

从 整体 架构 的 角度 来 说 ， 企 业 架 构 是 桥梁 ， 在 对 业务 战略 和 流程 理解 的 基础 上 ， 进 行规 
划 ， 形 成 灵活 的 、 可 扩展 的 架构 。 

对 于 银行 来 说 ， 其 架构 设计 是 否 灵活 、 先 进 ， 已 经 关系 到 银行 核心 业务 和 未 来 业务 的 发 
展 ,， 包括 是 否 能 够 适应 市 场 范 争 带 来 的 压力 。 

明确 战略 规划 ， 保 证 战略 规划 的 前 脆性 、 全 面 性 和 统一 性 ， 识 别 未 来 发 展 的 定位 和 战略 
目标 ， 结 合 银行 整体 的 业务 架构 ， 设 计 应 用 架构 、 数 据 架构 和 技术 架构 ， 并 且 建 立 相应 的 业 
务 流程 和 决策 机 制 ， 更 好 地 推动 银行 战略 目标 的 实现 ， 这 个 过 程 已 经 成 为 国内 外 银行 当前 的 
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重要 任务 之 一 ， 这 也 是 银行 通过 信息 化 转变 成 “智慧 银行 ”的 主要 过 程 。 





1.3 数据 架构 在 银行 信息 化 建设 中 的 重要 性 


数据 架构 在 企业 信息 化 建设 中 占有 非常 重要 的 地 位 。 目 前 来 说 ， 资 金 、 人 才 和 数据 是 公 
认 的 企业 的 资产 。 企 业 可 以 通过 使 用 数据 ， 提 供 更 好 的 产品 和 服务 ， 降 低 成 本 和 控制 风险 。 

如 何 建立 一 个 灵活 、 松 厢 合 、 高 性 能 的 数据 架构 规划 体系 ， 是 很 多 企业 必须 重视 的 问 
题 ， 经 过 多 年 的 信息 化 实践 ， 很 多 企业 已 经 逐渐 认识 到 ， 系 统 应 该 具备 多 渠道 数据 采集 能 
力 、 历 史 与 趋势 分 析 能 力 。 数 据 架 构 规划 在 信息 化 过 程 中 起 着 非常 重要 的 作用 ， 通 过 数据 架 
构 规划 可 以 推动 企业 信息 化 的 进程 ， 使 企业 充分 利用 数据 ， 提 供 更 好 的 产品 和 服务 ， 降 低 成 
本 和 控制 风险 ， 促 进 企业 经 营 战 略 的 实现 ， 提 升 企业 的 核心 范 争 力 。 

一 、 数 据 架构 在 企业 总 体 规划 中 占有 非常 重要 的 地 位 

(1) 数据 是 信息 系统 中 最 重要 的 资源 之 一 

信息 系统 就 像 是 数据 工厂 的 流水 线 ， 而 核心 是 数据 的 加 工 和 流转 。 比 较 有 价值 的 其 实 就 
是 数据 。 

(2) 数据 是 业务 和 技术 沟通 的 桥梁 

当 业 务 需求 和 技术 实现 出 现 脱节 的 时 候 ， 信 息 系 统 往往 就 会 出 现 问题 。 为 了 加 强 彼此 的 
沟通 ， 就 会 找到 一 门 共同 的 语言 ， 这 种 语言 就 是 数据 ， 它 承担 着 业务 和 技术 沟通 的 桥梁 
作用 。 

数据 是 业务 系统 真实 的 记录 ， 可 以 通过 分 析 数 据 的 过 程 完成 对 业务 需求 的 技术 性 分 解 ， 
同时 数据 又 是 系统 功能 设计 的 依据 。 

(3) 数据 是 企业 价值 提升 的 “推进 器 ” 
通过 对 数据 的 全 面 分 析 ， 可 以 促进 企业 的 业务 发 展 。 

二 、 良 好 的 数据 架构 对 银行 信息 化 建设 的 重要 性 

(1) 数据 是 银行 的 核心 资产 

在 信息 化 建设 过 程 中 ,数据 又 是 信息 系统 的 重要 资源 ， 如 何 提高 数据 的 利用 率 是 数据 架 
构 关注 的 重点 之 一 。 男 外， 在 数据 架构 过 程 中 应 该 有 大 局 观念 和 全 局 意识 。 优 秀 的 数据 架构 
可 以 提高 银行 的 服务 能 力 和 满足 银行 多 样 化 的 需求 。 

(2) 支持 产品 的 多 样 化 

目前 很 多 银行 系统 都 是 从 数据 源 的 采集 环节 到 数据 终点 的 发 布 ， 整 体 呈 现 出 了 一 种 紧 耦 
合 的 关系 ， 经 常 出 现 对 系统 某 一 功能 点 的 调整 修改 ， 都 需要 对 整个 系统 的 多 个 处 理 环 节 进 行 
改造 的 情况 。 这 种 落后 的 数据 架构 ， 已 经 严重 制约 了 硬件 性 能 的 发 挥 ， 最 后 只 能 靠 打 补丁 的 
方式 对 现 有 系统 进行 改造 。 也 就 是 在 现 有 系统 上 增加 新 的 功能 点 ， 或 者 开发 新 的 产品 ， 采 集 
新 的 数据 源 ， 每 个 系统 都 自 成 体系 ， 这 种 方式 会 造成 严重 的 重复 建设 的 问题 ， 资 源 也 会 严重 
浪费 ， 同 时 也 无 法 支持 产品 的 多 样 化 。 

(3) 消除 信息 孤岛 

数据 架构 可 以 帮助 银行 消除 信息 孤岛 ， 建 立 共享 、 通 用 的 企业 数据 基础 平台 。 没 有 好 的 
数据 架构 ， 同 样 也 不 会 有 好 的 数据 质量 ， 这 样 会 降低 银行 的 社会 公信 力 和 权威 性 ， 也 就 降低 
了 社会 的 认同 感 。 
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e 数据 和 空气 有 着 类 似 的 功能 ,不同 的 企业 和 个 人 需要 不 同类 型 的 数据 ， 数 据 就 是 价 
值 。 大 数据 即将 开启 一 个 新 的 时 代 ， 无 论 知识 普及 、 技 术 共 享 ， 还 是 人 才 培 养 ， 都 需 
要 国家 从 战略 层面 上 去 支持 。 

e 很 多 企业 已 经 充分 认识 到 数据 是 核心 资产 和 竞争 力 ， 正 是 这 个 原因 ，IT 人 员 才 需要 了 

解数 据 架 构 方面 的 知识 ， 并 且 能 够 利用 数据 架构 提升 数据 分 布 的 合理 性 ， 降 低 数 据 存 
储 的 成 本 。 

e 从 概念 上 来 说 ， 数 据 架 构 是 指 与 数据 相关 的 架构 组 件 的 排放 顺序 ， 架 构 组 件 负 责 数据 

的 存储 、 交 互 、 应 用 等 功能 。 同 时 数据 架构 是 企业 架构 的 重要 组 成 部 分 ， 对 于 企业 有 

效 地 分 配 、 部 署 和 使 用 数据 ， 实 现 数据 的 合理 组 织 、 有 效 共 享 具有 重要 的 指导 

意义 。 

对 于 企业 架构 来 说 ， 它 可 以 从 全 局 出 发 ， 统 一 各 类 概念 和 术语 ， 梳 理 现 有 的 系统 ， 提 

取 可 重用 的 还 资产 ， 从 而 降低 开发 的 成 本 ， 提 高 数据 质量 。 

企业 架构 包含 业务 架构 和 IT 架构， 我 们 可 以 参考 先进 的 架构 实践 ， 对 IT 架构 进行 优 

化 ， 确保 开架 构 能 够 很 好 地 支持 未 来 业务 的 发 展 。 而 全 架构 又 包含 了 应 用 架构 、 数 

据 架 构 和 技术 架构 。 

企业 的 总 体 架 构 就 是 从 全 局 出 发 ， 解决 现存 问题 ， 同 时 满足 现实 需求 和 适应 未 来 发 展 

的 需要 ， 有 效 地 对 资源 进行 管控 ， 加 强 IT 技术 实力 ， 并 且 指 明了 企业 的 经 营 方向 和 

发 展 目标 ， 对 企业 远景 发 展 轨 迹 进行 全 面 的 规划 。 

企业 总 体 规划 包括 企业 的 战略 、 企 业 架 构 和 企业 具体 的 实施 解决 方案 。 

企业 战略 是 对 企业 发 展 目标 ， 包 括 达 成 目标 的 方法 和 途径 的 总 体 谋 划 。 企 业 战 略 的 实 

质 就 是 企业 的 发 展 方向 和 定位 。 

企业 战略 的 作用 和 目标 就 是 企业 能 够 运筹 帷 申 ， 根 据 自 身 的 资源 和 环境 选择 合适 的 经 

营 发 展 方向 ， 它 是 一 个 长 远 、 持 续 的 发 展 过 程 ， 具 有 一 定 的 稳定 性 。 企 业 战 略 属于 企 

业 的 宏观 管理 范畴 ， 具 有 指导 性 、 长 远 性 、 系 统 性 、 风 险 性 、 全 局 性 和 竞争 性 等 主要 
村 征 。 

企业 的 业务 战略 是 指 企业 拥有 的 所 有 资产 ， 通 过 多 种 方式 进行 有 效 的 运营 ， 以 实现 利 

润 的 最 大 化 和 资本 的 增值 。 

企业 的 全 战略 是 指 在 充分 研究 企业 的 发 展 愿景 、 业 务 策略 和 管理 的 基础 上 ， 形 成 信 

息 系统 的 远景 、 组 成 架构 、 人 逻辑 关系 等 ， 以 文 撑 企业 战略 目标 的 实现 。 

企业 架构 实质 上 就 是 对 企业 多 角度 的 一 种 描述 ， 它 反映 了 企业 的 业务 流程 、 技 术 的 组 

织 和 安排 ,是 对 企业 关键 性 业务 和 技术 的 整体 性 描述 。 企 业 架 构 的 目的 是 将 跨 企业 

的 、 零 散 的 业务 流程 优化 成 一 个 集成 的 环境 ， 同 时 帮助 企业 执行 业务 战略 及 IT 战略 

规划 。 企 业 架 构 的 过 程 实质 上 就 是 对 现实 世界 中 企业 的 业务 流程 和 IT 设施 抽象 的 过 

程 。 它 反映 了 企业 的 业务 流程 和 IT 架构 之 间 的 关系 。 一 般 来 说 ， 企 业 架 构 包 括 业 务 

架构 和 本 架构 。 

e 广义 的 业务 架构 包括 产品 、 销 售 、 财 务 、 人 力 资 源 、 客 户 服 务 等 企业 核心 的 业务 功能 

































































和 职责 。 并 且 将 企业 战略 转化 成 企业 运营 的 目标 和 形式 ， 同 时 明确 相关 人 员 、 企 业 资 
源 、IT 资源 和 服务 是 如 何 协调 和 部 署 的 。 我 们 可 以 说 由 企业 战略 决定 了 业务 架构 的 
模式 ， 同 时 业务 架构 又 是 企业 战略 实现 的 手段 。 而 狭义 的 业务 架构 包含 了 企业 运营 活 
动 中 的 业务 策略 、 组 织 、 关 键 业 务 流程 、 组 织 架构 以 及 人 员 结 构 等 内 容 。 

IT 架构 是 对 企业 系统 的 并 规划 ， 是 建立 企业 信息 化 系统 的 综合 性 的 蓝图 ，IT 架构 可 
以 帮助 企业 获得 最 好 的 投资 回报 ， 同 时 实现 业务 和 技术 接口 之 间 的 标准 化 ， 保 证 企业 
运营 和 企业 战略 之 间 的 一 致 性 。 

应 用 架构 是 对 实现 业务 能 力 、 支 撑 业 务 发 展 的 应 用 功能 结构 化 的 描述 方法 。 系 统 的 
应 用 架构 可 以 从 功能 和 应 用 两 个 不 同 的 视角 描述 系统 各 组 件 构 成 以 及 组 件 之 间 的 关 
系 。 功 能 组 件 模 型 侧重 于 业务 功能 ， 而 应 用 组 件 模型 侧重 于 应 用 系统 设计 。 

。 数据 架构 是 数据 在 信息 系统 中 的 布局 与 流向 的 框架 和 与 数据 相关 的 架构 组 件 的 摆 放 。 
数据 是 指 系统 所 处 理 的 所 有 信息 和 数据 。 而 架构 组 件 负责 数据 的 存储 、 交 互 和 应 用 等 
功能 。 

技术 架构 是 全 架构 中 比较 底层 的 架构 ， 它 定义 了 如 何 建立 一 个 开 运行 环境 来 支持 数 
据 架 构 和 应 用 架构 ， 技 术 架 构 主 要 措 述 业 务 、 数 据 、 应 用 服务 部 署 的 基础 设施 能 
通过 技术 架构 可 以 建立 一 个 开平 台 ， 涉 及 对 技术 的 采用 、 基 础 设施 的 建立 、 产 品 的 
选择 、 系 统 的 管理 等 方面 。 

我 们 从 管理 的 角度 来 说 ， 应 该 从 制度 上 消除 技术 部 门 和 业务 部 门 之 间 的 “ 隔 闵 ”"”， 从 
管理 机 制 上 应 该 把 IT 技术 部 门 和 业务 部 门 的 目标 统一 起 来 ， 使 业务 部 门 除了 关注 业 
务 和 经 营 指 标 外 ， 还 要 关心 具体 的 操作 流程 、 应 用 架构 和 技术 风险 等 内 容 。 技 术 部 门 
除了 考虑 技术 实现 外 ， 还 要 考虑 项 目的 效益 ,使 技术 融入 业务 ， 建 立 相 应 的 考核 机 制 
和 激励 措施 。 

明确 战略 规划 ， 保 证 战略 规划 的 前 脆性、 全 面 性 和 统一 性 ， 识 别 未 来 发 展 的 定位 和 
战略 目标 ， 结 合 银行 整体 的 业务 架构 ,设计 应 用 架构 、 数 据 架 构 和 技术 架构 ， 并 且 
建立 相应 的 业务 流程 和 决策 机 制 ， 更 好 地 推动 银行 战略 目标 的 实现 ， 这 个 过 程 已 经 
成 为 国内 外 银行 当前 的 重要 任务 之 一 ， 这 也 是 银行 通过 信息 化 转变 成 “智慧 银行 ” 
的 主要 过 程 。 

国内 商业 银行 IT 架构 的 变革 主要 表现 在 以 下 几 个 方面 : 商业 银行 的 IT 架构 必须 建立 
“以 客户 为 中 心 ”的 原则 ， 以 市 场 为 导向 的 业务 流程 。 基 于 “以 客户 为 中 心 ” 的 思 
想 ， 建 立 一 系列 产品 创新 的 快速 响应 机 制 。 商 业 银行 的 开 架构 应 该 满足 低 成 本 、 灵 
活性 和 抗 风险 性 等 三 个 基本 要 求 。 

数据 架构 在 商业 银行 的 信息 化 建设 中 占有 非常 重要 的 地 位 。 目 前 来 说 ， 资 金 、 人 才 和 
数据 是 公认 的 企业 的 资产 。 企 业 可 以 通过 使 用 数据 ， 提 供 更 好 的 产品 和 服务 ， 降 低 成 
本 和 控制 风险 。 
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第 2 章 ”数据 架构 现状 分 析 


本 章 目 标 

通过 第 1 章 的 学 习 ， 我 们 已 经 了 解 了 什么 是 数据 架构 、 企 业 总 体 架构 规划 包含 哪些 内 
容 、 什 么 是 企业 战略 和 业务 架构 ， 以 及 应 用 架构 、 数 据 架 构 和 技术 架构 的 定义 是 什么 。 还 了 
解 了 数据 架构 规划 、 应 用 架构 规划 和 技术 架构 规划 的 方法 论 、 企 业 总 体 架构 和 数据 架构 之 间 
的 关系 等 重要 内 容 。 

从 本 章 开 始 将 正式 学 习 数 据 架 构 方面 的 知识 。 

本 童 重点 介绍 对 数据 架构 现状 分 析 的 工作 方法 。 现 状 分 析 主 要 发 生 在 项 目的 初始 阶段 ， 
主要 分 析 现 状 数据 架构 存在 哪些 问题 ， 如 何 对 现状 数据 进行 分 类 ， 结 合 对 战略 的 理解 ， 明 确 
下 一 阶段 的 工作 重点 。 掌 握 数 据 架 构 现状 分 析 的 相关 案例 ， 如 何 进行 数据 分 布 、 流 转 的 现状 
分 析 ， 关 于 数据 治理 现状 分 析 的 工作 方法 ， 数 据 质量 管理 的 现状 分 析 方法 ， 数 据 生 命 周期 管 
理 的 现状 分 析 方 法 ， 数 据 标准 管理 的 现状 分 析 方法 ， 元 数据 管理 的 现状 分 析 方 法 等 内 容 。 它 
是 项 目 成 功 的 关键 环节 之 一 。 

学 习 本 章 后 ， 读 者 将 掌握 

e 对 数据 架构 现状 分 析 的 工作 方法 

。 对 于 现状 调研 和 高 层 访谈 来 说 ， 我 们 可 以 集中 于 哪些 问题 

。 对 现状 的 数据 分 类 的 原则 和 方法 

。 如何 对 现状 数据 进行 分 类 

。 如何 基 于 数据 分 类 进行 现状 分 析 

。 如何 对 现 有 系统 进行 梳理 

。 掌握 数据 架构 现状 分 析 的 相关 案例 

e 学 习 数据 处 理 架 构 的 先进 经 验 

。 如 何 进行 数据 分 布 的 现状 分 析 

。 如 何 进行 数据 流转 的 现状 分 析 

e 关于 数据 治理 现状 分 析 的 工作 方法 

。 关于 数据 质量 管理 的 现状 分 析 方 法 

。 关于 数据 生命 周期 管理 的 现状 分 析 方 法 

e 关于 数据 标准 管理 的 现状 分 析 方 法 

。 关于 元 数据 管理 的 现状 分 析 方 法 


2.1 对 数据 架构 现状 分 析 的 工作 方法 









































数据 架构 现状 的 分 析 主 要 通过 现状 调研 、 资 料 的 分 析 、 高 层 领导 访谈 ， 了 解数 据 架 构 的 
现状 。 

现状 分 析 ， 主 要 以 发 现 问题 、 分 析 问 题 为 主 ,在 理解 现状 的 基础 上 ， 借 鉴 行 业内 先 
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进 的 经 验 ， 从 数据 分 类 、 数 据 分 布 及 其 存储 、 数 据 处 理 架 构 和 数据 管控 等 几 个 方面 对 数 
据 架 构 现 状 进行 描述 ， 从 而 发 现 数据 架构 存在 哪些 问题 ， 同 时 提出 改进 的 方向 ， 如 图 2-1 


所 示 。 
< <r> < 
Vv 


数据 分 类 ) 
数据 分 布 及 其 存储 ) 
数据 处 理 架 构 ) 





问题 发 现 及 其 改进 
图 2-1 数据 架构 现状 分 析 的 工作 方法 


最 后 把 发 现 的 问题 和 数据 架构 改进 的 方向 作为 未 来 数据 架构 规划 的 依据 和 重要 输入 部 
分 ， 如 图 2-2 所 示 。 





数据 架构 现状 存在 的 问题 


"© 
4 
用 未 来 数据 架构 规划 
数据 架构 改进 的 方向 上 














图 2-2 ”未 来 数据 架构 规划 的 依据 和 重要 输入 











对 于 现状 调研 和 高 层 访谈 来 说 ， 可 以 集中 于 以 下 几 个 方面 的 问题 : 

1) 高 层 领导 认为 现 有 的 核心 业务 系统 有 哪些 ? 

2) 现 有 系统 能 否 支撑 现 有 及 未 来 业务 发 展 ” 是 否 存 在 需要 改进 的 地 方 ? 

3) 在 产品 和 服务 方面 有 哪些 思路 ? 对 全 方面 有 什么 新 的 期 望 ? 

4) 未 来 开 建设 应 达到 什么 样 的 水 平 ? 未 来 几 年 业务 发 展 的 目标 是 什么 ? 

5) 在 新 产品 方面 ， 未 来 的 产品 有 哪些 特点 ? 

6) 未 来 3 ~5 年 会 拓展 哪些 数据 ? 

7) 在 数据 治理 方面 ， 哪 些 工 作 需 要 提高 ? 是 否 能 够 提高 数据 质量 ?质量 保证 手段 有 
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哪些 ? 

8) 技术 发 展 很 快 ， 如 大 数据 处 理 方式 。 对 于 新 技术 ， 领 导 层 有 什么 看 法 ? 

9) 目前 系统 和 业务 发 展 的 优势 和 劣势 是 什么 ? 

10) 目前 IT 系统 存在 哪些 问题 ? 对 开 架构 的 期 望 是 什么 ”目前 开 规划 的 目标 有 哪些 ? 

11) 数据 采集 、 加 工 、 对 外 服务 上 有 哪些 问题 ? 

12) 系统 运 维 上 存在 哪些 问题 ? 

对 数据 架构 现状 分 析 的 工作 方法 可 以 总 结 如 下 : 

首先 ， 可 以 先 从 数据 分 布 、 存 储 和 流转 等 几 个 方面 对 系统 现状 进行 描述 ， 其 中 数据 分 布 
的 现状 分 析 是 对 现 有 系统 的 梳理 ， 描 述 数据 分 类 在 各 个 数据 库 中 的 分 布 。 

其 次 ， 对 于 数据 架构 的 现状 分 析 ， 可 以 参考 行业 内 先进 的 实践 经 验 ， 分 别 从 数据 的 采集 、 
加 载 、 数 据 加 工 等 几 个 方面 对 数据 处 理 架构 进行 抽象 和 归纳 。 分 析 它 存在 哪些 不 足 。 

最 后 ， 从 数据 治理 和 管控 的 角度 ， 对 现状 数据 的 数据 质量 、 数 据 标准 、 元 数据 管理 、 数 
据 的 生命 周期 管理 等 几 个 方面 存在 哪些 问题 进行 分 析 ， 发 现 现状 存在 哪些 问题 。 

















2.2 ”对 现状 的 数据 分 类 的 原则 和 方法 


2.2.1 对 数据 分 类 的 说 明 


首先 了 解 一 下 什么 是 数据 分 类 。 

数据 分 类 是 按照 选 定 的 属性 (或 特征 ) 区 分 分 类 对 象 ， 将 具有 某 种 共同 属性 〈 或 特征 ) 
的 分 类 对 象 集合 在 一 起 的 过 程 。 

数据 分 类 是 在 业务 层面 上 将 数据 按照 某 种 属性 进行 归 类 和 划分 ， 它 是 按照 业务 特征 
进行 分 类 的 ， 数 据 分 类 促进 业务 沟通 ,现状 的 分 类 有 利于 分 析 ， 规 划 的 数据 分 类 有 利于 
设计 。 

数据 分 类 最 终 可 以 形成 数据 大 类 和 数据 小 类 ， 数 据 大 类 是 从 全 局 角度 理解 业务 ， 数 据 小 
类 是 从 微观 角度 对 同一 大 类 的 进一步 细 分 。 

数据 分 类 的 原则 和 方法 主要 包括 以 下 几 个 部 分 : 

(1) 分 类 应 该 按照 业务 特征 对 数据 进行 划分 。 

(2) 企业 数据 执行 同一 个 分 类 标准 。 

(3) 分 类 应 该 满足 可 维护 性 和 可 扩充 性 。 

(4) 分 类 没有 二 义 性 。 

(5) 分 类 应 该 满足 业务 需求 对 于 数据 组 织 的 要 求 。 

(6) 分 类 是 业务 和 技术 沟通 的 桥梁 。 


2.2.2 现状 数据 的 分 类 


一 、 数 据 分 类 一 一 大 类 

数据 大 类 是 从 宏观 的 角度 理解 企业 全 局 的 业务 情况 ， 我 们 可 以 在 现状 分 析 的 基础 上 ， 对 
数据 大 类 进行 主题 域 的 划分 。 主 题 域 是 从 较 高 层次 上 对 业务 的 一 种 抽象 和 归纳 。 在 主题 域 的 
划分 过 程 中 ， 需 要 全 面 考虑 业务 的 扩展 性 ， 当 确定 后 ， 主 题 域 很 少 发 生变 更 。 
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通过 对 系统 现状 分 析 ， 并 结合 现 有 的 业务 ， 将 数据 分 为 几 个 较 大 的 主题 域 。 我 们 结合 金 
融 行业 的 业务 活动 特点 ， 参 考 最 佳 行业 实践 和 Teradata 金融 业 逻 辑 数据 模型 ， 可 以 将 数据 大 
类 分 成 8 个 部 分 : 当事人、 产品、 渠道、 合约、 财务 、 机 构 、 事 件 、 活 动 。 

(1) 当事人 

银行 所 服务 的 任意 对 象 ， 如 个 人 、 客 户 和 员工 等 。 

(2) 产品 

银行 提供 给 客户 的 产品 和 服务 信息 。 

(3) 渠道 

渠道 是 客户 和 银行 之 间 进 行 交互 的 方法 和 手段 。 通 过 渠道 ， 客 户 与 银行 进行 接触 ， 购 买 
相关 产品 和 服务 。 














(4) 合约 

银行 与 客户 之 间 、 银 行内 部 员工 之 间 签 订 的 协议 信息 。 例 如 ， 银 行 和 个 人 签订 的 贷款 合同 。 

(5) 财务 

主要 包括 银行 的 总 账 科目 余额 、 财 务 预 算 等 信息 。 

(6) 机 构 

是 指 银 行内 部 的 机 构 ， 如 银行 所 属 的 分 行 机 构 、 支 行 等 。 

(7) 事件 

基于 合约 的 协议 信息 ， 有 主体 触发 事件 类 信息 ， 如 存 取款 、 收 费 、 投 诉 等 内 容 。 

(8) 活动 

主要 是 银行 对 客户 所 做 的 各 种 宣传 和 促销 活动 ， 目 的 是 将 产品 推销 给 客户 ， 加 强 银行 与 
客户 之 间 的 关系 。 


数据 大 类 之 间 的 关系 如 图 2-3 所 示 : 当事人 签订 合约 的 信息 ， 同 时 主动 触发 事件 ， 
事件 的 发 生 基于 合约 的 内 容 ， 事件 信息 、 机 构 的 信息 和 合约 的 信息 可 以 加 工 成 产品 等 
内 容 。 














图 2-3 数据 大 类 之 间 的 关系 


二 、 数 据 分 类 一 一 小 类 
数据 小 类 是 在 同一 大 类 内 ， 按 照 业务 的 特性 进行 进一步 的 细 分 。 例 如 ， 我 们 按照 数据 8 
大 类 继续 细 分 ， 举 例 见 表 2-1。 
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表 2-1 数据 分 类 





























































































































































































































大 类 小 “类 描 述 
个 人 客户 包括 个 人 客户 的 身份 信息 、 职 业 信息 、 联 络 信 息 等 内 容 
当事人 企业 客户 包括 企业 概况 信息 、 身 份 信息 等 内 容 
雇员 包括 雇员 身份 信息 、 联 系 方式 等 内 容 
服务 类 产品 包括 查询 报告 、 个 人 信息 查询 等 内 容 
产品 统计 类 产品 包括 管理 统计 报表 等 内 容 
分 析 类 产品 包括 风险 分 析 报 告 、 一 些 分 析 挖 掘 类 产品 等 内 容 
ATM 内 
渠道 柜 面 黎 
POS 终端 赂 
局 划 银行 四 全 本 竹 
银行 财务 预算 竹 
贷款 合同 信息 包括 贷款 次 合 同 的 合 合同 编号 、 合 同 授信 额度、 金额 、 币 种 、 合 
合约 同 生 效 日 期 等 信息 
担保 合同 信息 分 为 保证 合同 、 抵 押 合 同和 质押 合同 等 信息 
分 行 沸 述 分 行 的 基本 信息 
机 构 客服 中 心 漠 述 客服 中 心 的 基本 信息 
支行 沸 述 支行 的 基本 信息 
存款 竹 
取款 竹 
查询 咯 
付款 各 
导师 营销 策略 竹 
营销 行为 竹 

















2.3 数据 架构 现状 分 析 


2.3.1 数据 分 布 现 状 分 析 


通过 对 现 有 系统 的 梳理 ， 数 据 小 类 在 现 有 数据 库 的 分 布 状况 见 表 2-2。 
表 2-2 数据 小 类 
















































































数据 小 类 分 布 的 数据 库 数据 小 类 分 布 的 数据 库 
个 人 客户 A 库 ,B 库 ，C 库 贷款 合同 信息 A 库 , B 库 
企业 客户 A 库 ，B 库 担保 合同 信息 A 库 ，B 库 
雇员 A 库 ，C 库 分 行 A 库 ，B 库 
服务 类 产品 A 库 ，B 库 客服 中 心 A 库 ，B 库 
统计 类 产品 A 库 ，C 库 支行 A 库 , B 库 
分 析 类 产品 A 库 ，B 库 存款 A 库 ，B 库 
ATM A 库 ,B 库 ，C 库 取款 A 库 ，B 库 

柜 面 A 库 ,B 库 查询 A 库 ，B 库 
POS 终端 A 库 ，B 库 付款 A 库 ，B 库 
银行 的 总 账 科 目 余额 A 库 ，B 库 营销 策略 A 库 ，B 库 
银行 财务 预算 A 库 ，C 库 营销 行为 A 库 ，B 库 
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通过 表 2-2 所 示 的 分 布 可 以 看 出 ， 主 要 的 分 类 数据 有 多 个 副本 ， 数 据 的 元 余 度 较 高 。 
2.3.2 数据 流转 现状 分 析 


通过 对 业务 流程 现状 的 分 析 ， 在 处 理 流程 环节 中 可 能 存在 以 下 问题 : 

1. 数据 处 理 各 环节 是 否 清晰 

数据 处 理 环节 包括 数据 采集 、 产 品 加 工 和 对 外 服务 。 我 们 需要 从 以 下 几 个 方面 分 析 数 据 
的 处 理 环节 。 

1) 是 否 在 加 载 和 数据 迁移 过 程 中 进行 了 产品 加 工 ， 加 工 方式 是 否 统一 。 

2) 加 工 生成 的 产品 是 否 单一 。 

3) 是 否 可 以 快速 向 用 户 提供 丰富 和 个 性 化 的 产品 。 

2. 是 否 对 数据 流转 进行 了 统一 管理 

数据 处 理 的 关键 在 于 数据 加 载 、 清 洗 、 整 合 、 加 工 、 迁 移 的 各 个 环节 。 我 们 需要 分 析 数 
据 加 载 、 整 合 和 数据 迁移 的 运行 方式 是 否 缺 少 统一 的 运行 监控 手段 。 

我 们 按照 分 类 对 数据 流转 现状 进行 描述 ， 如 图 2-4 所 示 。 可 以 看 出 ， 数 据 出 现 反 复 抽 
取 的 过 程 ， 同 一 类 的 数据 在 多 个 数据 库 之 间 进 行 流动 和 复制 ， 导 致 数据 链条 过 长 ， 严 重 影响 
系统 执行 的 效率 。 

这 种 现象 的 原因 是 缺乏 完整 、 良 好 的 数据 架构 规划 ， 导 致 “ 因 事 设 库 ” 现 象 的 增多 ， 
缺乏 数据 的 一 致 性 。 主 要 数据 重复 分 布 在 不 同 的 数据 库 中 ,造成 元 余 度 较 高 ， 因 为 数据 反复 
抽取 ， 严 重 影响 系统 的 效率 。 






































图 2-4 数据 流转 现状 








2.3.3 数据 处 理 架 构 现状 总 结 


我 们 参考 数据 人 处理 架构 的 先进 经 验 ， 对 现状 进行 抽象 和 归纳 ， 如 图 2-5 所 示 。 数 据 处 
理 架 构 可 以 分 成 数据 源 层 、 数 据 交 换 层 、 数 据 基 础 层 、 数 据 加 工 层 和 应 用 层 等 几 个 部 分 。 

(1) 数据 源 层 

数据 源 层 是 通过 各 种 方式 从 业务 系统 中 抽取 数据 。 

(2) 数据 交换 层 

数据 交换 层 是 对 数据 进行 校 验 ， 最 后 再 加 载 到 目标 库 中 。 

(3) 数据 基础 层 

数据 基础 层 是 保存 校 验 通过 的 数据 ， 作 为 后 续 加 工 的 唯一 可 信 数 据 源 。 
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图 2-5 数据 处 理 架 构 先 进 经 验 





(4) 数据 加 工 层 

数据 加 工 层 是 保存 核心 业务 数据 、 当 前 的 数据 和 历史 数据 ， 并 且 进 行 加 工 ， 以 供应 用 层 
使 用 。 

(5) 应 用 层 

主要 进行 产品 加 工 ， 包 括 对 基础 产品 的 加 工 和 增值 产品 的 加 工 。 

参考 数据 处 理 架 构 与 系统 现状 的 映射 关系 ， 从 数据 采集 、 数 据 加 载 、 数 据 处 理 、 数 据 加 
工 和 数据 迁移 等 几 个 方面 分 析 数 据 处 理 架构 可 能 存在 的 问题 。 

一 、 数 据 采 集 现 状 分 析 

数据 采集 现状 分 析 分 为 数据 报 送 和 上 传 的 现状 ， 包 括 采 集 的 分 类 、 数 据 的 类 型 、 文 件 的 
大 小 、 采 集 的 频率 和 传输 的 方式 等 内 容 。 

通过 对 采集 的 分 类 、 数 据 的 类 型 、 文 件 的 大 小 、 采 集 的 频率 和 传输 的 方式 的 分 析 ， 可 以 
得 知 ， 数 据 处 理 架构 在 数据 采集 和 文件 传输 上 有 较 大 的 提升 空间 。 例 如 ， 增 加 自动 上 传 、 断 
点 续 传 、 传 输 监 控 等 方式 提高 数据 的 采集 和 传输 效率 。 









































表 2-3 为 某 银行 的 数据 采集 现状 分 析 。 
表 2-3 某 银行 的 数据 采集 现状 分 析 

采集 的 分 类 数据 的 类 型 文件 的 大 小 | 采集 的 频率 传输 的 方式 
银行 报 送 的 数据 文件 | 个 人 客户 基本 信息 10 MB 按 天 通过 数据 库 工具 export/Tmport 导出 、 导 入 
银行 报 送 的 数据 文件 | 企业 客户 基本 信息 12 MB 近 周 通过 数据 库 工 具 export/Tmport 导出 、 导 入 
银行 报 送 的 数据 文件 雇员 基本 信息 15 MB 按 月 通过 数据 库 工具 export/Import 导出 、 导 和 
银行 报 送 的 数据 文件 银行 财务 预算 2 MB 控 天 通过 数据 库 工具 export/Import 导出 、 导 入 
银行 报 送 的 数据 文件 贷款 合同 信息 5 MB 按 月 通过 数据 库 工具 export/Import 导出 、 导 入 
银行 报 送 的 数据 文件 担保 合同 信息 12 MB 按 月 通过 数据 库 工具 export/Import 导出 、 导 和 



























































二 、 数 据 加 载 现状 分 析 

对 于 数据 加 载 的 现状 分 析 包 括 数据 校 验 、 数 据 加 载 人 库 等 几 个 部 分 。 

(1) 数据 校 验 的 现状 分 析 

数据 校 验 包 括 对 文件 的 格式 校 验 和 逻辑 校 验 ， 一 般 来 说 ， 只 有 通过 格式 校 验 后 ， 才 能 进 
入 逻辑 校 验 过 程 。 当 数据 文件 通过 数据 校 验 后 ， 再 直接 加 载 到 数据 库 中 ， 如 图 2-6 所 示 。 
3 了 0 


加 载 入 库 


格式 校 验 逻辑 校 验 l 有 


图 2-6 数据 加 载 的 现状 分 析 

(2) 数据 加 载 的 现状 分 析 

基于 数据 加 载 的 现状 ， 可 以 从 灵活 性 、 扩 展 性 和 高 效 性 上 分 析 系 统 可 能 存在 哪些 问题 。 

1) 灵活 性 。 分 析 系 统 的 现状 是 否 可 以 支持 对 校 验 的 灵活 配置 。 

2) 扩展 性 。 分 析 系 统 现状 的 情况 ,包括 数据 的 逻辑 校 验 和 入 库 处 理 方式 是 什么 、 是 否 
具有 可 扩展 性 、 是 否 是 系统 性 能 的 瓶颈 。 

3) 高 效 性 。 分 析 数 据 加 载 过 程 是 串 行 处 理 方式 还 是 并 行 处 理 方式 、 对 于 数据 的 校 验 是 
批量 校 验 还 是 一 条 条 校 验 ， 以 及 是 否 具 有 高 效 性 。 

三 、 数 据 处 理 现状 分 析 

判断 系统 是 否 进行 了 身份 信息 类 的 加 工 和 整合 。 例 如 ,包括 对 身份 信息 的 识别 和 归 
并 ,对 各 种 规则 进行 有 效 匹 配 ， 列 出 疑似 名 单 ， 然 后 通过 技术 手段 或 者 人 工 确认 的 方式 
对 身份 信息 进行 确认 。 如 图 2-7 所 示 ， 可 以 采取 这 种 方式 进行 客户 身份 整合 ， 获 取 唯 一 
客户 信息 。 
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人 员 基 本 信息 分 析 是 否 按 照 时 间 先 后 顺序 保留 最 新 的 人 员 基 本 信息 







M 银行 | 客户 A 的 信息 关系 信息 | 分 析 是 按照 时 间 先 后 顺序 保留 最 新 的 信息 ， 还 是 保留 
@ 所 在 银行 的 信息 
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图 2-7 数据 处 理 现状 的 分 析 





同时 为 了 保证 客户 的 完整 性 、 准 确 性 和 反映 客户 当前 信息 ， 也 可 以 参考 如 图 2-8 所 示 
的 这 种 方式 ， 多 个 银行 的 同一 客户 信息 ， 经 过 唯一 码 分 配 的 过 程 ， 包 括 数 据 标准 化 、 清 洗 、 
算法 匹配 和 分 配 唯 一 码 ， 再 经 过 数据 加 工 的 过 程 形成 唯一 真实 的 客户 信息 。 其 中 完整 性 是 指 
包含 业务 所 需 的 所 有 客户 属性 ， 准 确 性 是 指 每 个 属性 均 反 映 客户 的 真实 信息 。 

四 、 数 据 加 工 现状 分 析 

考虑 数据 加 工 存在 哪些 问题 : 

1) 数据 加 工 是 否 进行 了 整体 的 规划 和 通盘 的 考虑 ， 如 将 相同 的 数据 加 工 抽象 成 公共 数 
据 加 工 。 

2) 判断 相同 的 数据 是 否 存 在 多 次 抽取 的 情况 ， 是 否 存在 数据 不 一 致 的 风险 。 
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图 2-8 数据 处 理 参考 


五 、 数 据 迁 移 现 状 分 析 

考虑 现状 数据 迁移 可 能 存在 哪些 问题 : 

1) 判断 系统 是 否 存在 同一 数据 源 反 复 抽 取 数 据 到 多 个 目标 库 的 情况 ， 这 种 迁移 方式 会 
有 数据 不 一 致 的 风险 。 

2) 判断 系统 是 否 对 数据 迁移 进行 了 统一 管理 和 维护 ， 避 人 免 不 必 要 的 迁移 过 程 。 
通过 对 相关 人 负责 人 员 的 访谈 ， 以 及 对 数据 分 布 和 流转 现状 的 分 析 ， 我 们 归纳 总 结 了 数据 
架构 规划 的 关键 问题 ， 判 断 数据 架构 总 体 架 构 原 则 是 否 缺 失 。 

我 们 从 数据 采集 、 数 据 加 载 、 数 据 处 理 、 数 据 加 工 和 数据 迁移 等 几 个 方面 对 数据 处 理 架 
构 现 状 进行 说 明 ， 说 明 现 状 系统 中 存在 哪些 问题 和 可 以 改进 的 地 方 。 

例如 ， 数 据 处 理 架 构 可 能 存在 以 下 几 种 问题 ; 

1) 判断 数据 加 载 高 效 性 、 灵 活性 和 可 扩展 性 是 否 存在 问题 。 

2) 是 否 具有 统一 的 数据 加 工 规划 ， 数 据 迁 移 是 否 有 统一 的 调度 。 
如 果 存 在 上 述 问题 ， 可 以 通过 增加 数据 缓冲 区 ， 避 免 多 个 目标 数据 从 同一 数据 源 重 复 抽 
取 数 据 ， 降 低 对 数据 源 的 影响 和 数据 不 一 致 性 的 风险 。 

例如 ， 通 过 使 用 数据 迁移 工具 ， 增 强 对 数据 转换 和 迁移 的 统一 管理 ， 避 免 重复 的 工作 。 
当 大 量 的 数据 从 一 个 库 迁 移 到 另 一 个 库 ， 会 影响 数据 的 一 致 性 ， 导 致 数据 宛 余 度 高 ， 影 响 效 
率 和 导致 时 间 窗 口 过 长 的 问题 ， 特 别 是 如 果 某 个 数据 没有 明显 的 加 工 要求 和 应 用 要 求 ， 从 一 
个 库 不 停 地 流转 到 另 一 个 库 ， 会 导致 迁移 的 数据 量 很 大 ， 影 响 性 能 和 数据 的 不 一 致 性 ， 所 以 
尽量 减少 数据 的 全 量 迁 移 。 
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2.4 数据 治理 现状 分 析 


数据 治理 现状 分 析 框 架 ， 主 要 用 于 带 助 系统 对 数据 治理 现状 进行 分 析 ， 一 般 包 括 数据 治 
理 机 制 和 数据 治理 领域 两 个 部 分 。 数 据 治理 领域 可 以 包括 数据 质量 、 数 据 生 命 周期 、 数 据 标 
准 和 元 数据 管理 ， 如 图 2-9 所 示 。 数 据 治理 机 制 包括 政策 、 组 织 、 流 程 和 技术 工具 等 4 个 方 
面 。 

下 面 先 谈 一 下 数据 治理 领域 ; 

(1) 数据 质量 

对 于 数据 质量 来 说 ， 通 过 使 用 技术 工具 解决 数据 质量 问题 ， 通 过 改善 和 提高 组 织 的 管理 
了 2 
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图 2-9 数据 治理 领域 


水 平 ， 执 行 相关 的 政策 和 流程 ， 使 得 数据 质量 得 到 进一步 的 提高 。 

(2) 数据 生命 周期 

对 于 数据 生命 周期 来 说 ， 可 以 划分 为 4 个 阶段 来 描述 数据 的 生命 周期 ， 包 括 数据 创建 、 
数据 使 用 、 数 据 归档 和 数据 销毁 。 然 后 通过 使 用 技术 工具 解决 4 个 阶段 的 问题 ， 通 过 改善 和 
提高 组 织 的 管理 水 平 ， 执 行 相关 的 政策 ， 加 强 对 数据 生命 周期 的 管理 。 

(3) 数据 标准 

对 于 数据 标准 来 说 ， 它 通过 建立 数据 规范 、 政 策 体系 、 组 织 、 管 控 流 程 和 使 用 相应 的 技 
术 工 具 来 确保 系统 内 重要 核心 的 数据 是 一 致 和 准确 的 。 数据 标准 是 企业 级 的 数据 定义 ,企业 
内 所 有 的 系统 都 应 该 遵守 和 执行 数据 标准 。 

(4) 元 数据 管理 

对 于 元 数据 管理 来 说 ， 它 通过 建立 数据 规范 、 政 策 体系 、 组 织 、 管 控 流 程 和 使 用 相应 的 
技术 工具 来 满足 对 元 数据 的 管理 。 通 过 元 数据 管理 可 以 了 解数 据 的 变化 过 程 ， 包 括 这 些 变 化 
会 给 系统 禹 来 什么 影响 。 

我 们 从 政策 、 组 织 、 流 程 、 技 术 工 具 4 个 方面 对 数据 质量 、 数 据 生 命 周 期 、 数 据 标准 和 
元 数据 管理 进行 分 析 ， 如 图 2-10 所 示 。 

















. 
政策 
> 
流程 





图 2-10 分 析 的 维度 
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(1) 政策 
通过 制定 相应 的 政策 明确 相关 部 门 的 责任 ， 明 确 数 据 治理 各 个 领域 的 政策 和 规范 ， 通 过 
政策 的 制定 去 规范 相关 人 员 的 行为 。 











(2) 组 织 
通过 建立 明确 的 组 织 架 构 和 人 员 和 角色 ， 明 确 数据 治理 相关 责任 人 ， 定 义 不 同 责任 人 的 
职责 。 


(3) 流程 

通过 制定 数据 治理 各 个 领域 的 工作 方法 和 步骤， 明确 相关 人 员 的 分 工 和 协作 关系 。 

(4) 技术 工具 

通过 技术 工具 保证 数据 质量 的 管理 ， 支 持 数据 标准 和 元 数据 的 发 布 和 查询 等 流程 。 对 数 
据 生 命 周期 进行 管理 。 


2.4.1 数据 质量 管理 现状 分 析 


数据 质量 管理 现状 分 析 包 括 政策 、 组 织 、 流 程 和 技术 工具 现状 分 析 。 

(1) 数据 质量 管理 政策 现状 分 析 

判断 是 否 建立 了 完整 的 数据 质量 管理 政策 体系 。 

(2) 数据 质量 管理 组 织 现 状 分 析 

判断 是 否 建立 了 完整 的 数据 质量 管理 组 织 ， 如 数据 质量 管理 的 组 织 包括 业务 部 门 和 客服 
部 门 。 业 务 部 门 的 职责 是 质量 验收 管理 、 数 据 质量 量化 考评 、 数 据 质 量 现场 监测 、 数 据 质 量 
量化 考评 、 数 据 质 量 反馈 管理 和 日 常数 据 质量 管理 等 内 容 ; 客服 部 门 的 职责 是 制定 数据 质量 
处 理 规范 和 负责 客户 关于 数据 质量 问题 的 咨询 和 服务 ， 并 且 对 问题 进行 跟踪 。 

(3) 数据 质量 管理 流程 现状 分 析 

判断 系统 是 否 建立 了 完整 的 数据 质量 管理 流程 。 例 如 ， 数 据 质量 事前 防范 、 加 工 处 理 质 
量 监控 和 入 库 后 事后 治理 。 

1) 数据 质量 事前 防范 。 先 对 数据 的 接口 程序 进行 测试 和 验收 ， 例 如 按照 某 个 测试 标准 ， 
完成 测试 报告 ， 对 测试 结果 进行 验证 ， 根 据 验 证 结果 判断 验收 是 否 通过 。 对 于 未 通过 验收 的 
数据 接口 程序 ， 将 发 现 的 问题 反馈 给 相关 机 构 或 者 人 员 ， 并 指导 其 解决 问题 。 

当 修改 完 数据 接口 程序 后 ， 需 要 重新 进行 验证 和 测试 ， 当 完成 测试 后 ， 重 新 申请 验收 流 
程 。 可 以 通过 搭建 测试 环境 ， 专 门 用 于 对 数据 的 测试 和 验证 工作 ， 增 强 对 数据 质量 的 事前 防 
范 工作 。 

2) 加 工 处 理 质量 监控 。 在 数据 加 工 处 理 过程 中 ， 对 数据 进行 预 处 理 校 验 和 入 库 校 验 ， 
保证 合格 的 数据 能 够 入 库 ， 不 合格 的 数据 反馈 给 相应 的 机 构 ， 然 后 根据 数据 质量 检查 规则 ， 
检验 入 库 的 数据 是 否 正 确 。 可 以 通过 提高 数据 自动 化 的 程度 ， 优 化 数据 加 载 功能 ， 实 现 自 动 
调度 加 载 ; 优化 原 有 反馈 渠道 ， 提 高 数据 报 送 自动 化 程度 。 尽 量 减少 未 知 错误 的 反馈 ， 降 低 
错误 数据 的 更 正 难度 。 

3) 入 库 后 事后 治理 。 入 库 后 事后 治理 可 以 包括 两 端 数 据 核对 ， 对 数据 质量 进行 现场 监 
测 ， 对 有 异议 的 数据 进行 分 析 ， 目 的 是 不 断 提高 数据 的 质量 ,减少 异议 情况 的 发 生 。 我 们 建 
议 构建 数据 管理 平台 完成 对 系统 数据 质量 的 统计 分 析 工 作 ， 清 楚 掌 握 数据 质量 状况 ， 从 而 提 
高 工作 效率 ， 更 好 推进 数据 质量 工作 。 例 如 增加 以 下 几 个 功能 : 两 端 数据 明细 核对 功能 、 定 
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点 监测 功能 、 历 史 处 理 情况 查询 功能 、 数 据 统计 与 分 析 功 能 、 数 据 提取 与 反馈 功能 、 数 据 质 
量 档案 管理 功能 、 异 常数 据 核 实 工作 管理 功能 、 数 据 质量 统计 报表 功能 、 文 档 查 阅 功能 、 问 
题 在 线 解答 功能 。 

(4) 数据 质量 管理 技术 工具 现状 分 析 

数据 质量 管理 技术 工具 不 作为 本 书 重 点 。 

综 上 所 述 ， 我 们 可 以 参考 先进 实践 经 验 ， 判 断 系统 的 数据 质量 管理 还 存在 哪些 问题 和 差 
距 。 数 据 质量 的 提升 和 检查 过 程 不 是 一 足 而 就 的 ， 而 是 一 个 不 断 提 升 和 改进 的 过 程 ， 同 时 数 
据 质量 管理 不 仅仅 是 一 个 技术 问题 ， 它 更 是 一 个 管理 问题 ， 需 要 技术 人 员 和 业务 人 员 互 相配 
合 ， 制 定 规则 和 管理 流程 。 


2.4.2 数据 生命 周期 管理 


完整 的 数据 生命 周期 管理 涵盖 数据 从 产生 到 销毁 的 全 过 程 。 

(1) 数据 生命 周期 管理 政策 现状 分 析 

判断 该 系统 是 否 建立 了 完整 的 数据 生命 周期 政策 体系 ， 如 在 数据 创建 、 数 据 使 用 过 程 中 
是 否 建 立 了 相应 的 接口 规范 。 在 数据 归档 和 数据 销毁 过 程 中 是 否 有 相应 的 数据 生命 周期 管理 
方法 和 实施 细则 等 内 容 。 

(2) 数据 生命 周期 管理 组 织 现状 分 析 

判断 系统 是 否 建立 完整 的 数据 生命 周期 管理 流程 。 例 如 ， 分 析 数 据 生命 周期 管理 流程 在 
数据 创建 、 数 据 使 用 、 数 据 归档 和 数据 销毁 过 程 中 ， 有 哪些 组 织 架构 和 人 员 进 行 专项 管理 。 

(3) 数据 生命 周期 管理 流程 现状 分 析 

判断 系统 是 否 建立 完整 的 数据 生命 周期 管理 流程 。 例 如 ， 分 析 数 据 生命 周期 管理 是 否 具 
有 数据 的 评估 、 管 理 手段 设计 和 落地 执行 流程 。 

数据 生命 周期 重点 关注 的 部 分 主要 包括 数据 创建 、 数 据 使 用 、 数 据 归档 、 数 据 销毁 。 

。 数据 创建 
通过 建立 数据 标准 ， 保 证 数据 的 准确 性 。 通 过 数据 质量 管理 保证 数据 创建 的 准确 性 。 

。 数据 使 用 

在 数据 使 用 过 程 中 ， 可 以 利用 元 数据 管理 监控 数据 的 使 用 过 程 ， 利 用 数据 标准 保证 数据 
的 准确 性 。 利 用 数据 质量 管理 保证 数据 加 工 的 准确 性 。 
。 数据 归档 
通过 数据 生命 周期 评估 手段 ， 评 估 数 据 什么 时 候 归档 。 
。 数据 销毁 
通过 数据 生命 周期 评估 手段 ， 评 估 数 据 什么 时 候 销毁 。 

数据 生命 周期 可 以 满足 审计 管理 的 需求 ， 减 少数 据 的 元 余 度 ， 提 高 数据 的 一 致 性 ， 同 时 
减少 数据 的 存储 ， 提 升 系统 的 性 能 。 


2.4.3 数据 标准 管理 


数据 标准 管理 现状 分 析 主 要 包括 数据 标准 管理 政策 现状 分 析 、 数 据 标准 管理 组 织 现状 分 
析 、 数 据 标准 管理 流程 现状 分 析 、 数 据 标准 管理 技术 工具 现状 分 析 。 数 据 标准 是 企业 级 的 数 
据 定义 ,企业 所 有 的 系统 都 应 遵守 和 执行 数据 标准 。 
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(1) 数据 标准 管理 政策 现状 分 析 

判断 该 系统 是 否 建立 了 完整 的 数据 标准 政策 体系 。 例 如 ， 在 数据 标准 的 建设 过 程 中 是 否 
建立 了 相应 的 管理 政策 ， 数 据 是 否 得 到 了 统一 的 定义 。 

(2) 数据 标准 管理 组 织 现状 分 析 

判断 系统 是 否 建 立 完整 的 数据 标准 管理 流程 。 例 如 ， 分 析 数 据 标准 管理 流程 中 有 哪些 组 
织 架 构 和 人 员 进 行 专项 管理 。 

(3) 数据 标准 管理 流程 现状 分 析 

判断 系统 是 否 建立 了 完整 的 数据 标准 管理 流程 。 

(4) 数据 标准 管理 技术 工具 现状 分 析 

数据 标准 管理 技术 工具 现状 分 析 不 是 本 书 重点 。 
2.4.4 元 数据 管理 

元 数据 管理 现状 分 析 主 要 包括 : 元 数据 管理 政策 现状 分 析 、 元 数据 管理 组 织 现 状 分 析 、 
元 数据 管理 流程 现状 分 析 、 元 数据 管理 技术 工具 现状 分 析 。 

(1) 元 数据 管理 政策 体系 现状 分 析 

判断 企业 是 否 建立 了 完整 的 元 数据 管理 政策 。 

(2) 元 数据 管理 组 织 现状 分 析 

判断 企业 是 否 建立 了 完整 的 组 织 架构 。 例 如 ， 分 析 元 数据 管理 流程 中 有 哪些 组 织 架构 和 
人 员 进 行 专项 管理 。 

(3) 元 数据 管理 流程 现状 分 析 

判断 企业 是 否 建立 了 完整 的 元 数据 管理 流程 。 

(4) 元 数据 管理 技术 工具 现状 分 析 

元 数据 管理 工具 现状 分 析 不 是 本 书 重 点 。 

元 数据 是 “描述 数据 的 数据 ”。 一 般 来 说 ， 元 数据 就 是 用 来 描述 上 下 文 的 信息 ， 帮 助人 
们 更 好 地 理解 和 使 用 数据 。 

元 数据 的 分 类 包括 : 业务 元 数据 、 技 术 元 数据 和 管理 元 数据 。 

(1) 业务 元 数据 

业务 元 数据 是 指 从 业务 角度 描述 业务 领域 相关 的 概念 、 关 系 和 规则 的 数据 ， 主 要 包括 业 
务 术 语 和 业务 规则 等 信息 。 

(2) 技术 元 数据 

技术 元 数据 是 指 描述 系统 中 技术 细节 相关 的 概念 、 关 系 和 规则 的 数据 ， 主 要 包括 对 数据 
结构 、 数 据 处 理 方面 的 描述 ， 以 及 数据 仓库 、ETL、 前 端 展 现 等 技术 细节 方面 的 信息 。 

(3) 管理 元 数据 

管理 元 数据 是 指 描述 管理 领域 相关 的 概念 、 关 系 和 规则 的 数据 ， 主 要 包括 管理 流程 、 人 
员 组 织 和 角色 职责 等 信息 。 
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2.5 数据 架构 现状 要 点 分 析 总 结 


我 们 从 几 个 方面 分 析 数 据 架构 是 否 存在 问题 : 数据 架构 的 合理 性 、 数 据 模型 的 合理 性 、 
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数据 的 交互 和 加 工 环节 是 否 畅通 、 数 据 的 处 理 效 率 、 是 否 满足 数据 源 采集 的 灵活 性 、 是 否 具 
完善 的 数据 治理 框架 等 。 

(1) 数据 架构 的 合理 性 

主要 判断 数据 架构 的 设计 能 否 适用 于 系统 的 使 用 ， 可 以 采集 需要 的 信息 ， 并 加 工 成 不 同 
的 产品 。 

(2) 数据 模型 的 合理 性 

判断 数据 模型 是 否 适应 功能 的 扩展 性 和 对 新 业务 的 支持 。 

(3) 数据 加 工 环节 是 否 畅通 

判断 系统 之 间 的 信息 能 否 互相 沟通 ， 针 对 数据 加 工 和 处 理 的 要 求 ， 能 和 否 在 最 短 时 间 内 ， 
把 需要 的 数据 汇总 和 加 工 。 同 时 需要 考虑 数据 分 析 的 维度 和 粒度 问题 。 

(4) 数据 的 处 理 效 率 

需要 考虑 数据 加 载 方面 ， 包 括 数据 量 的 大 小 和 数据 的 运算 能 力 。 还 需 考虑 数据 是 否 可 以 
快速 入 库 。 在 提高 效率 和 处 理 模 式 上 ， 是 否 使 用 多 个 进程 并 行 处 理 的 方式 。 

(5) 是 否 满足 数据 源 采 集 的 灵活 性 

判断 系统 是 否 可 以 根据 业务 的 需求 采集 结构 化 、 半 结构 化 和 非 结构 化 的 数据 。 在 数据 采 
集 的 次 度 上 ， 是 否 可 以 扩大 采集 范围 ， 能 够 覆盖 整个 业务 ， 进 而 满足 数据 采集 的 灵活 性 。 

(6) 是 否 具有 完善 的 数据 治理 框架 

对 于 数据 标准 的 建设 ， 是 否 形 成 统一 、 有 效 的 数据 标准 ， 以 保证 参与 信息 的 稳定 性 和 完 
整 性 ， 是 否 保证 历史 数据 变更 的 可 追溯 性 。 对 于 数据 质量 的 检查 ， 要 求全 面 性 、 及 时 性 和 准 
确 性 等 内 容 。 
































小 结 


。 数据 架构 现状 的 分 析 主 要 通过 现状 调研 、 资 料 的 分 析 、 高 层 领导 访谈 或 者 是 对 业务 部 
门 的 访谈 ， 了 解数 据 架 构 的 现状 。 现 状 分 析 ， 主 要 以 发 现 问题 、 分 析 问 题 为 主 ， 在 理 

解 现状 的 基础 上 ， 借 鉴 行业 内 先进 的 经 验 ， 从 4 个 方面 对 数据 现状 进行 对 比 ， 从 而 发 
现 数据 架构 存在 哪些 问题 ， 同 时 提出 改进 的 方向 。 把 发 现 的 问题 作为 未 来 架构 规划 的 
依据 。 

。 数据 分 类 是 按照 选 定 的 属性 〈 或 特征 ) 区 分 分 类 对 象 ， 将 具有 某 种 共同 属性 (或 特 

征 ) 的 分 类 对 象 集合 在 一 起 的 过 程 。 

e。 数据 分 类 最 终 可 以 形成 数据 大 类 和 数据 小 类 ， 数 据 大 类 是 从 全 局 角度 理解 业务 ， 数 据 
小 类 是 从 微观 角度 对 同一 大 类 的 进一步 细 分 。 

。 参考 最 佳 行业 实践 和 Teradata 金融 业 逻 辑 数据 模型 ， 可 以 将 数据 大 类 分 成 8 个 部 分 : 
当事人 人、 产品、 渠道 、 合 约 、 财 务 、 机 构 、 事 件 、 活 动 。 

。 数据 处 理 架 构 可 以 分 成 数据 源 层 、 数 据 交换 层 、 数 据 基 础 屋 、 数 据 加 工 层 和 应 用 层 等 
几 个 部 分 。 

。 数据 采集 现状 分 析 包括 数据 报 送 和 上 传 的 现状 ， 包 括 采集 的 分 类 、 数 据 的 类 型 、 文 件 
的 大 小 、 采 集 的 频率 和 传输 的 方式 等 内 容 。 

。 对 于 数据 加 载 的 现状 分 析 ， 包 括 数 据 校 验 、 数 据 加 载 入 库 等 几 个 部 分 。 
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。 数据 治理 领域 可 以 包括 数据 质量 、 数 据 生 命 周期 、 数 据 标准 和 元 数据 管理 。 数 据 治 理 
机 制 包括 政策 、 组 织 、 流 程 和 技术 工具 等 4 个 方面 。 

。 数据 治理 现状 分 析 框 架 ， 主 要 用 于 帮助 系统 对 数据 治理 现状 进行 分 析 ， 一 般 包 括 数据 
治理 机 制 和 数据 治理 领域 两 个 部 分 。 

。 数据 质量 管理 现状 分 析 包括 数据 质量 管理 政策 现状 分 析 、 数 据 质量 管理 组 织 现状 
析 、 数 据 质量 管理 流程 现状 分 析 和 数据 质量 管理 技术 工具 现状 分 析 。 

。 对 于 数据 质量 来 说 ， 通 过 使 用 技术 工具 解决 数据 质量 问题 ， 通 过 改善 和 提高 组 织 的 管 
理 水 平 ， 执 行 相关 的 政策 和 流程 ， 使 得 数据 质量 得 到 进一步 的 提高 。 

。 数据 生命 周期 管理 现状 分 析 主 要 包括 数据 生命 周期 管理 政策 现状 分 析 、 数 据 生命 周期 

管理 组 织 现状 分 析 、 数 据 生 命 周 期 管理 流程 现状 分 析 、 数 据 生 命 周期 管理 技术 工具 现 

状 分 析 。 

对 于 数据 生命 周期 来 说 ， 可 以 划分 为 4 个 阶段 来 描述 数据 的 生命 周期 ， 包 括 数 据 创 

建 、 数 据 使 用 、 数 据 归 档 和 数据 销毁 。 然 后 通过 使 用 技术 工具 解决 4 个 阶段 的 问题 ， 

通过 改善 和 提高 组 织 的 管理 水 平 ， 执 行 相关 的 政策 ， 加 强 对 数据 生命 周期 的 管理 。 

数据 标准 管理 现状 分 析 主 要 包括 数据 标准 管理 政策 现状 分 析 、 数 据 标准 管理 组 织 现状 

分 析 、 数 据 标 准 管理 流程 现状 分 析 、 数 据 标 准 管理 技术 工具 现状 分 析 。 

对 于 数据 标准 来 说 ， 它 通过 建立 数据 规范 、 政 策 体系 、 组 织 、 管 控 流 程 和 使 用 相应 的 

技术 工具 来 确保 系统 内 重要 核心 的 数据 是 一 致 和 准确 的 。 数 据 标准 是 企业 级 的 数据 定 

义 ， 企 业内 所 有 的 系统 都 应 该 遵守 和 执行 数据 标准 。 

元 数据 管理 现状 分 析 主 要 包括 元 数据 管理 政策 现状 分 析 、 元 数据 管理 组 织 现状 分 析 、 

元 数据 管理 流程 现状 分 析 、 元 数据 管理 技术 工具 现状 分 析 。 

。 对 于 元 数据 管理 来 说 ， 它 通过 建立 数据 规范 、 政 策 体系 、 组 织 、 管 控 流程 和 使 用 相应 
的 技术 工具 来 满足 对 元 数据 的 管理 。 通 过 元 数据 管理 可 以 了 解数 据 的 变化 过 程 ， 包 括 
这 些 变化 会 给 系统 带 来 什么 影响 。 

。 元 数据 是 “描述 数据 的 数据 ”。 一 般 来 说 ， 元 数据 就 是 用 来 描述 上 下 文 的 信息 ， 帮 助 

人 们 更 好 地 理解 和 使 用 数据 。 

元 数据 的 分 类 包括 业务 元 数据 、 技 术 元 数据 和 管理 元 数据 。 

我 们 从 几 个 方面 分 析 数 据 架 构 是 否 存在 问题 : 数据 架构 的 合理 性 、 数 据 模 型 的 合理 

性 、 数 据 的 交互 和 加 工 环节 是 否 畅通 、 数 据 的 处 理 效率 、 是 否 满足 数据 源 采集 的 灵活 

性 、 是 否 具 有 完善 的 数据 治理 框架 、 是 否 建立 数据 标准 体系 、 是 否 有 完整 的 数据 生命 

周期 体系 和 数据 质量 管理 体系 是 否 完善 等 。 
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第 3 董 ”数据 架构 日 标 规划 


本 章 目 标 
通过 前 一 草 的 学 习 ， 我 们 已 经 理解 了 数据 架构 现状 分 析 的 工作 方法 ， 以 及 数据 架构 现状 
分 析 的 相关 案例 。 本 章 将 重点 介绍 如 何在 现状 分 析 的 基础 上 ， 对 目标 数据 架构 的 建设 , 包括 
数据 模型 的 建设 、 目 标 数据 架构 分 布 和 流转 的 规划 等 内 容 。 

学 习 本 章 后 ， 读 者 将 掌 握 : 

。 数据 架构 的 工作 方法 和 指导 原则 

。 针对 数据 架构 现状 的 总 结 

。 提出 数据 架构 的 改进 方向 

。 概念 模型 的 建设 

。 数据 分 类 的 规划 

。 逻辑 模型 的 建设 

。 物理 模型 的 建设 

。 未 来 数据 架构 的 分 布 

。 目标 数据 架构 的 流转 

。 数据 归档 

。 对 数据 架构 的 验证 











3.1 数据 架构 理论 体系 概述 





数据 架构 理论 体系 是 把 业务 和 技术 融合 到 一 起 的 一 套 体系 。 它 包括 技术 、 方 法 和 相应 的 
管理 过 程 。 经 过 几 十 年 的 发 展 ， 数 据 架 构 已 经 形成 了 完整 的 理论 体系 。 

什么 是 数据 架构 呢 ? 

数据 架构 是 企业 架构 的 重要 组 成 部 分 ， 实 现 数据 的 合理 组 织 和 共享 ， 保 证 数据 在 系统 之 
间 的 一 致 性 、 完 整 性 、 安 全 性 和 正确 性 。 一 般 来 说 ， 数 据 架 构 包 含 数据 模型 和 分 类 、 数 据 分 
布 和 流转 等 内 容 。 

对 于 数据 治理 来 说 ， 它 是 为 了 提升 数据 架构 各 个 层次 的 管控 和 协作 能 力 。 同 时 数据 架构 
为 数据 治理 提供 基础 能 力 支 撑 ， 数据 治 理 与 数据 架构 是 相辅相成 的 。 数 据 治理 包含 数据 质量 
管理 、 数 据 生 命 周 期 管理 、 数 据 标准 、 元 数据 管理 等 多 个 管控 专项 。 数 据 治理 会 在 下 一 章节 
详细 介绍 。 

(1) 数据 模型 

数据 模型 是 指 用 实体 、 属 性 及 其 关系 对 企业 运营 和 管理 过 程 中 涉及 的 业务 概念 和 逻辑 规 
则 进行 统一 定义 、 命 名 和 编码 。 

(2) 数据 分 类 

数据 分 类 是 根据 业务 特征 对 数据 进行 归 类 和 划分 ， 并 用 层级 列表 的 方式 展示 数据 内 容 ， 
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数据 分 类 的 规范 需要 满足 各 种 业务 需求 对 数据 组 织 的 要 求 。 

(3) 数据 分 布 

数据 分 布 主 要 包括 业务 分 布 与 系统 分 布 。 数 据 分 布 主要 分 析 数 据 在 各 个 环节 中 的 创建 、 
引用 、 更 新 和 删除 ， 并 根据 业务 对 数据 的 处 理 特点 ,合理 规划 数据 的 分 布 。 在 规划 数据 分 布 
的 时 候 ， 需 要 考虑 如 图 3-1 所 示 的 几 个 方面 。 


多 。 明 确 系统 每 个 环节 之 间 的 数据 定位 和 数据 流向 





。 考 虚数 据 在 不 同 数据 库 之 间 的 快速 迁移 








。 考 虑 数据 如 何 快速 加 工 
。 考 虑 数据 采集 的 多 样 化 








。 考 虚数 据 更 正和 纠 错 机 制 





图 3-1 规划 数据 分 布 需 要 考虑 的 内 容 





3.1.1 数据 架构 的 工作 方法 和 指导 原则 


在 第 2 章 中 ,我 们 了 解 了 数据 架构 现状 分 析 的 方法 ， 那 么 如 何 与 需求 结合 起 来 ， 并 且 对 
目标 数据 架构 进行 规划 呢 ? 

数据 架构 的 工作 方法 就 是 参考 数据 架构 的 原则 ， 在 理解 现状 问题 和 改进 方向 之 后 ， 在 需 
求 要 点 的 基础 上 结合 最 佳 实践 进行 目标 数据 架构 的 规划 ， 如 图 3-2 所 示 。 











数据 模型 
数据 架构 原则 


上 


现状 问题 和 改进 
方向 | 
需求 要 点 

















图 3-2 数据 架构 的 工作 方法 


在 数据 架构 规划 中 需要 保证 数据 的 安全 性 、 可 用 性 、 完 整 性 、 真 实 性 和 抗 抵赖 性 。 
(1) 安全 性 
安全 性 是 指 在 数据 处 理 中 保密 ， 传 输 及 存储 中 加 密 。 
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(2) 可 用 性 

可 用 性 是 指 提供 数据 备份 和 恢复 功能 。 

(3) 完整 性 

完整 性 是 指 在 处 理 、 传 输 和 存储 过 程 中 校 验 完整 性 。 

(4) 真实 性 

真实 性 是 指 在 传输 和 处 理 前 识别 数据 的 真实 性 。 

(5) 抗 抵赖 性 

抗 抵赖 性 是 指 传输 和 处 理 中 保证 不 可 否认 性 。 

因为 数据 架构 和 系统 程序 设计 上 本 身 就 有 妥协 的 成 分 ， 例 如 为 了 某 种 优化 ， 是 放 在 整体 
架构 上 去 解决 还 是 从 程序 上 去 调整 和 完善 呢 ? 

这 并 没有 一 个 确定 的 答案 ， 这 需要 根据 不 同 的 场景 去 考虑 ， 因 此 ， 需 要 一 个 策略 和 标准 
去 指导 什么 问题 需要 在 架构 上 考虑 ， 什 么 问题 需要 在 系统 详细 设计 上 考虑 。 以 下 是 数据 架构 
的 指导 原则 。 

(1) 灵活 性 原则 

数据 架构 要 充分 考虑 灵活 性 ， 满 足 不 同 的 业务 需求 ， 以 适应 业务 的 变更 。 

(2) 高 效 性 原则 

保证 数据 校 验 、 加 载 、 迁 移 、 加 工 的 高 效 性 ， 支 持 产品 的 快速 生成 。 

(3) 可 扩展 性 原则 

数据 架构 需要 考虑 未 来 的 可 扩展 性 ， 当 需求 发 生变 化 的 时 候 ， 尺 量 减少 对 数据 架构 的 变更 。 

(4) 数据 共享 原则 

提高 数据 公共 加 工 的 功能 ， 保 证 相同 指标 加 工 的 唯一 性 ， 最 大 程度 地 共享 公共 加 工 的 结果 。 

(5) 数据 可 用 性 原则 

对 数据 的 采集 应 该 满足 业务 的 需求 。 

(6) 数据 安全 性 原则 

数据 按照 非 功 能 性 属性 制定 不 同 的 安全 级 别 ， 并 区 分 敏感 数据 和 非 敏感 数据 。 


3.1.2 针对 数据 架构 现状 的 总 结 


对 于 数据 架构 来 说 ， 可 以 从 几 个 方面 去 了 解 现状 存在 的 问题 是 什么 。 例 如 ， 判 断 数 据 架 
构 的 原则 是 否 清 晰 、 架 构 层 次 的 划分 是 否 合理 等 内 容 。 

(1) 数据 架构 的 原则 是 否 清晰 

判断 现状 中 作为 数据 架构 设计 的 指导 原则 是 否 清晰 ， 是 否 能 成 为 数据 架构 和 数据 治理 可 
以 遵循 的 依据 。 

(2) 架构 层次 的 划分 是 否 合理 

从 数据 分 布 、 数 据 流转 的 角度 判断 当前 的 数据 架构 是 否 合理 。 

例如 ， 对 于 数据 分 布 来 说 ， 是 否 有 缺失 的 层级 ， 数 据 的 分 布 是 否 混乱 ， 该 分 布 是 否 引 起 
效率 的 问题 。 对 于 数据 流转 来 说 ， 是 否 过 于 重 麦 、 复 杂 ， 是 否 有 数据 不 一 致 的 风险 。 

(3) 数据 采集 方式 

对 于 数据 采集 来 说 ， 我 们 需要 了 解 采 集 的 方式 是 什么 ， 例 如 是 采用 中 间 件 的 方式 还 是 
HTTP 的 方式 ， 采集 的 对 象 包括 什么 ， 以 哪 类 信息 为 主 ， 数 据 采 集 的 时 间 周 期 是 什么 ,数据 
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的 采集 能 否 满足 扩展 性 、 灵 活性 和 高 效 性 等 特点 。 

同时 需要 考虑 在 安全 上 是 否 有 提升 的 空间 ， 是 否 有 自动 上 传 、 断 点 续 传 和 在 数据 传输 过 
程 中 能 够 监控 等 内 容 。 

(4) 数据 的 校 验 、 加 载 方式 




















数据 校 验 一 般 分 为 格式 校 验 和 逻辑 校 验 ， 我 们 需要 了 解 格式 校 验 的 方式 是 什么 ， 逻 辑 校 
验 的 规则 有 哪些 等 。 对 于 数据 加 载 来 说 ， 是 否 可 以 处 理 批量 的 加 载 和 校 验 ， 是 否 能 够 在 灵 活 


性 、 扩 展 性 和 高 效 性 上 有 提升 的 空间 。 

(5) 数据 、 产 品 的 整合 和 加 工 

我 们 需要 了 解数 据 整合 、 加 工 的 粒度 是 多 少 ， 是 否 可 以 进行 身份 识别 、 疑 似 归 并 和 对 主 
数据 的 加 工 等 方面 。 

例如 ， 人 员 身 份 信息 是 以 什么 方式 进行 整合 的 ， 是 否 能 满足 对 于 同一 个 人 、 不 同 证 件 信 
息 的 整合 和 加 工 。 对 于 产品 加 工 来 说 ， 我 们 需要 了 解 产 品类 型 有 哪些 ， 是 否 存 在 “ 因 事 设 
库 ” 的 情况 ， 对 于 相同 的 业务 需求 ， 是 否 存 在 重复 抽取 、 重 复 加 工 的 过 程 。 在 公共 加 工 方 
面 ， 是否 有 统一 的 规划 、 是 否 有 提升 的 空间 等 内 容 。 


3.1.3 需求 要 点 


对 采集 的 数据 项 进行 分 析 ， 判 断 是 否 能 满足 对 产品 的 加 工 需求 ， 效 率 问 题 是 否 存在 改善 
的 空间 ， 是 否 能 够 支持 数据 的 快速 入 库 ， 不 同系 统 之 间 的 数据 是 否 可 以 共享 ， 是 否 可 以 规划 
数据 交换 平台 ， 提 高 数据 加 工 的 效率 ， 保 证 数据 架构 满足 灵活 性 、 高 效 性 和 可 扩展 性 。 


3.1.4 ”数据 架构 的 改进 方向 


可 以 参考 数据 架构 的 现状 问题 ， 提 出 对 数据 架构 的 改进 方向 。 例 如 ， 首 先 应 该 明确 数据 架 
构 总 体 指导 原则 和 现存 问题 是 什么 ， 以 此 原则 指导 未 来 数据 架构 的 建设 ， 同 时 提出 未 来 数据 架 
构 的 改进 方向 是 什么 。 最 后 明确 数据 架构 的 各 个 层级 ， 以 及 对 每 个 层级 进行 数据 治理 和 管控 。 
























































3.2 数据 模型 











数据 模型 是 对 数据 特征 的 抽象 ， 它 一 般 分 为 概念 模型 、 逻 辑 模型 和 物理 模型 。 概 念 模型 
是 以 数据 分 类 的 形式 体现 ， 而 逻辑 模型 以 ER 图 的 形式 展示 。 
3.2.1 概念 模型 

什么 是 概念 模型 ? 

概念 模型 是 从 业务 的 角度 对 数据 进行 抽象 ， 包 括 业 务 层面 上 主题 域 的 划分 ， 以 及 各 个 主 
题 域 下 的 数据 分 类 ， 和 基于 分 类 的 非 功 能 属性 。 
3.2.2 数据 分 类 

什么 是 数据 分 类 ? 

数据 分 类 是 以 业务 特征 对 数据 进行 归 类 和 划分 ， 一 般 用 层级 列表 的 方式 展现 数据 内 容 ， 
数据 分 类 是 概念 模型 的 体现 。 数 据 分 类 可 以 促进 业务 人 员 和 技术 人 员 之 间 的 沟通 ， 指 导数 据 
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的 分 布 和 流转 。 

什么 是 主题 域 ? 

主题 域 是 从 较 高 层级 上 对 业务 的 抽象 和 归纳 ， 从 概念 层面 对 系统 的 全 面 描述 ， 主 题 域 主 
要 考虑 业务 扩展 性 ， 主 题 域 划 定 后 ， 较 少 变更 。 

主题 域 下 的 数据 分 类 是 什么 ? 

分 析 数 据 的 非 功 能 特性 ， 未 来 架构 的 数据 分 类 从 较 细 维 度 进行 划分 , 保证 已 有 的 数据 分 
类 较 少 变化 。 当 有 新 业务 扩展 时 ， 可 以 增加 新 的 数据 分 类 。 

一 、 数 据 分 类 的 指导 原则 和 非 功 能 属性 

1. 数据 分 类 的 指导 原则 

对 业务 数据 进行 主题 域 及 主题 域 下 的 划分 ， 需 要 遵循 如 下 几 个 原则 : 业务 驱动 性 、 完 整 
性 原则 ， 分 类 通用 性 、 互 斥 性 原则 ， 非 功能 属性 一 致 性 原则 ， 排 除 衍生 数据 原则 ， 分 类 关联 
性 、 可 理解 性 原则 等 内 容 ， 如 图 3-3 所 示 。 

业务 驱动 性 、 完 整 性 原则 分 类 通用 性 、 互 斥 性 原则 








































二 
Wy 


非 功能 属性 一 致 性 原则 








排除 衍生 数据 原则 











分 类 关联 性 、 可 理解 性 原则 
图 3-3 数据 分 类 需要 遵循 的 原则 








(1) 业务 驱动 性 、 完 整 性 原则 

言 息 项 的 设立 从 业务 特性 出 发 ， 不 考虑 技术 及 落地 实现 。 数 据 分 类 做 到 人 全面、 完整 ， 保 
证 对 业务 的 完整 覆盖 。 

(2) 分 类 通用 性 、 互 斥 性 原则 

数据 分 类 尽 可 能 支持 业务 多 变性 ， 力 求 以 最 少 改动 支持 业务 变更 ， 数 据 分 类 相互 之 间 不 
能 包含 相同 数据 内 容 。 

(3) 非 功 能 属性 一 致 性 原则 

数据 分 类 包含 的 所 有 信息 项 对 应 的 非 功能 属性 应 该 一 致 。 

(4) 排除 衍生 数据 原则 

分 类 信息 不 包括 衍生 数据 。 

(5) 分 类 关联 性 、 可 理解 性 原则 

数据 分 类 ， 同 一 类 下 数据 项 应 有 关联 性 。 分 类 应 做 到 定义 清晰 、 无 二 义 性 。 

2. 数据 分 类 的 非 功能 性 属性 

针对 主题 域 下 的 数据 分 类 ， 需 要 从 变动 频率 、 变 动量 、 变 动 模式 、 数 据 量 大 小 、 格 式 、 
共享 性 等 各 个 维度 进行 分 析 。 数 据 分 类 的 非 功能 属性 对 于 数据 分 布 的 设计 具有 重要 的 参考 意 
义 。 如 图 3-4 所 示 ， 数 据 分 类 的 非 功能 性 属性 主要 包括 数据 量 大 小 、 格 式 、 共 享 性 、 变 动 
频率 、 变 动量 、 变 动 模式 等 内 容 。 
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数据 量 大 小 


数据 记录 数 的 大 小 被 采集 数据 发 生 
变化 的 快慢 








[上 非 功 能 性 | 
[| 属性 


数据 组 织 和 存储 | 描述 在 时 间 段 内 发 
格式 一 生变 化 的 数据 量 











7 到 


数据 在 系统 内 被 数据 发 生变 化 形式 ， 
:总 的 强度 新 增 或 者 更 新 等 



































图 3-4 数据 分 类 的 非 功能 性 属性 





(1) 数据 量 大 小 

数据 量 大 小 可 以 分 为 大 、 中 、 小 三 类 。 划 分 的 方法 根据 实际 需求 不 断 调整 。 例 如 ，10 
亿 条 记录 以 上 的 ， 数 据 量 为 大 ; 1 亿 ~ 10 亿 条 之 间 的 ， 数 据 量 为 中 ; 1 亿 条 记录 以 下 的 ， 数 
据 量 为 小 。 

(2) 格式 

数据 的 格式 有 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 。 所 谓 结构 化 数据 是 以 二 维 表 
格 形式 进行 逻辑 表达 存储 的 数据 。 半 结构 化 数据 包括 一 些 文本 文件 、 文 档 。 非 结构 化 数据 包 
括 图 片 、 图 像 和 音频 /视频 信息 等。 

(3) 共享 性 

数据 共享 性 可 以 分 为 较 高 、 一 般 、 较 低 。 例 如 ， 一 些 主体 信息 在 各 个 业务 模块 共享 的 需 
求 较 高 。 对 于 一 些 特定 业务 领域 的 数据 ， 共 享 性 要 求 较 低 。 

(4) 变动 频率 

变动 频率 可 以 分 成 极 少 、 偶 尔 和 固定 周期 。 例 如 ， 我 们 可 以 把 固定 不 变 的 或 者 年 变动 率 
非常 低 的 ， 如 姓名 、 身 份 证 信息 和 组 织 机 构 号 等 信息 归 为 变动 频率 极 少 发 生变 化 的 一 类 。 

从 业务 角度 出 发 ， 数 据 存在 变动 的 可 能 ， 而 且 变动 时 间 不 可 预知 。 例 如 ， 地 址 信息 和 电 
话 信息 等 内 容 ， 这 些 信息 归 到 变动 频率 偶尔 发 生变 化 的 一 类 。 对 于 一 些 数据 按照 国定 周期 变 
更 ， 如 还 款 、 扣 收 等 内 容 ， 可 以 归 为 变动 频率 在 固定 周期 内 发 生变 化 的 一 类 。 

(5) 变动 量 

以 年 或 者 月 为 基础 对 数据 的 变动 量 进行 估 值 。 

(6) 变动 模式 

变动 模式 分 成 增加 、 更 新 和 删除 模式 。 增 加 是 以 新 增 方式 产生 数据 ， 如 业务 交易 类 信 
息 。 更 新 是 数据 存在 更 新 的 可 能 ， 如 企业 规模 、 联 系 方式 等。 

二 、 数 据 分 类 举例 

对 于 数据 分 类 ， 我 们 以 金融 逻辑 模型 为 例 进行 说 明 ， 

参考 Teradata 金融 业 人 逻辑 数据 模型 ， 分 成 当事人 和 当事人 角色 、 产 品 、 协 议 、 事 件 、 地 
域 、 金 融资 产 。 

(1) 当事人 和 当事人 角色 

银行 所 服务 的 对 象 和 感 兴趣 进行 分 析 的 对 象 ， 如 个 人 或 公司 客户 、 雇 员 等 信息 。 
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(2) 产品 

产品 是 金融 机 构 向 用 户 销售 的 或 者 提供 给 客户 的 服务 。 

(3) 协议 

金融 机 构 与 当事人 之 间 针 对 某 种 特定 产品 或 者 服务 而 签订 的 合约 关系 ， 如 客户 和 银行 签 
订 的 合同 等 内 容 。 








(4) 事件 
记录 与 银行 相关 的 活动 的 详细 情况 。 可 以 由 客户 发 起 ， 也 可 以 由 银行 发 起 。 
(5) 地 域 


观察 和 分 析 的 区 域 ， 包 括 传统 的 地 址 信息 。 

(6) 金融 资产 

可 以 包括 客户 的 资产 (负债) 信息。 

金融 数据 模型 如 图 3-5 所 示 ， 是 指 当 事 人 之 间 针 对 某 种 特定 产品 或 者 服务 而 签订 的 协 
议 关 系 ， 协 议 内 容 被 加 工 成 产品 ， 事 件 的 发 生 基于 协议 内 容 ， 协 议 自 动 触发 事件 。 












| 








| \ 


图 3-5 金融 数据 模型 





3.2.3 ” 风 辑 模型 


什么 是 逻辑 模型 呢 ? 

逻辑 模型 是 用 来 发 现 、 记 录 和 沟通 业务 的 详细 “蓝图 ”， 由 一 系列 表 和 实体 详细 描述 组 
成 ,是 通用 的 业务 语言 ， 便 于 业务 与 业务 之 间 的 功 色 ee 
设计 、 基 本 实体 的 设计 和 主要 属性 的 设计 ， 是 IT 人 员 和 业务 人 员 沟通 的 工具 和 桥梁 。 逻 得 
模型 建设 的 一 般 步骤， 如 图 3-6 所 示 ， 首 先 分 析 需 求 ， 选 择 感 兴趣 的 数据 ， 然 后 在 实体 中 
增加 属性 ， 进 行 粒度 层次 的 划分 ， 最 后 进行 关系 模式 的 定义 。 


有 了 求 选择 感 兴趣 在 实体 中 增加 
关系 模式 的 定义 | 一 | 粒度 层次 的 划分 


图 3-6 逻辑 模型 建设 的 一 般 步 又 
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3.2.4 物理 模型 


物理 模型 是 逻辑 模型 针对 具体 实现 环境 的 物理 化 ， 可 以 不 遵循 第 三 范式 ， 主 要 包括 实体 
属性 的 物理 化 ， 属 性 的 长 度 、 类 型 、 主 键 、 外 键 、 索 引 等 详细 设计 。 物 理 模 型 主要 是 描述 模 
型 实体 的 细节 ， 对 列 的 属性 进行 明确 的 定义 。 物 理 模 型 的 建设 过 程 是 在 逻辑 模型 的 基础 上 ， 
为 应 用 生产 环境 选取 一 个 合适 的 物理 结构 的 过 程 ， 包 括 存储 结构 和 存储 方法 。 

主要 步 又 如 下 : 

1) 实体 名 转变 为 表 名 。 

2) 属性 名 转换 为 列 名 ， 确 定 列 的 属性 。 





3.3 目标 数据 架构 规划 


3.3.1 目标 数据 染 构 的 分 析 重点 


一 、 非 功能 性 指标 
未 来 数据 架构 的 建设 需要 考虑 系统 的 非 功能 性 指标 ， 见 表 3-1。 
表 3-1 非 功 能 性 指标 






































指 人 标 要 求 

数据 加 载 数据 加 载 的 效率 从 XX 条 /小 时 可 以 提高 到 多 少 

服务 查询 系统 最 多 的 并 发 用 户 数 是 多 少 ， 响 应 时 间 是 多 少 秒 

数据 加 工 加 工时 间 窗 口 是 多 少 小 时 。 处 理 能 力 是 每 小 时 能 处 理 多 少 条 记录 
可 用 性 例如 ， 系 统 可 以 达到 24 小 时 不 停机 








具体 实现 上 述 指标 的 做 法 可 以 有 以 下 几 种 ， 如 图 3-7 所 示 。 


























统一 进行 数据 架构 规划 ， 将 一 些 功能 抽取 成 公共 组 件 
建立 标准 和 规范 多 成 可 重用 的 资产 




























将 业务 逻辑 尽 可 能 的 迁移 ， 使 用 成 熟 的 技术 提高 数据 
降低 数据 库 处 理 的 压力 人 1 加 工 和 处 理 的 能 








图 3-7 实现 指标 的 方法 

1) 统一 进行 数据 架构 规划 ， 建 立 标 准 和 规范 ， 在 统一 的 平台 进行 设计 、 开 发 、 测 试 和 
部 署 。 

2) 将 一 些 功 能 抽取 成 公共 组 件 ， 形 成 可 重用 的 资产 。 

3) 使 用 成 熟 的 技术 提高 数据 加 工 和 处 理 的 能 力 ， 支 持 对 关键 环节 的 并 行 处 理 能 力 ， 扩 
大 数据 处 理 和 对 外 发 布 的 可 用 时 间 。 

4) 将 业务 逻辑 尽 可 能 迁移 减 小 数据 库 处 理 的 压力 ， 提 高 系统 并 发 处 理 的 能 力 和 可 扩 
展 的 能 力 。 
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二 、 数 据 架 构 现存 问题 影响 及 分 析 

问题 影响 及 分 析 主 要 包括 对 现状 问题 的 描述 ， 并 且 提 出 对 系统 的 改进 点 。 举 例如 下 所 示 。 

问题 1 

系统 的 并 行 处 理 能 力 差 ， 数 据 迁 移 期 间 无 法 对 外 发 布 服务 ， 对 外 服务 窗口 时 间 缩 短 ， 资 
源 使 用 不 均衡 ， 数 据 库 服 务 器 的 压力 过 大 。 同 时 硬件 资源 使 用 情况 不 均衡 ， 出 现 资源 浪费 的 
情况 。 

改进 点 

将 业务 处 理 逻 辑 拆 分 减少 数据 库 服务 器 的 压力 ， 提 高 应 用 的 并 行 处 理 能 力 ， 增 强 对 关 
键 环 节 的 并 行 处 理 能 力 ， 选 择 成 熟 的 数据 处 理 和 加 工 技术 ， 尽 量 做 到 数据 采集 、 加 工 和 对 外 
服务 的 并 行 处 理 , 减少 数据 处 理 环节 间 的 技术 依赖 和 约束 。 

问题 2 

没有 统一 的 技术 开发 框架 平台 ， 每 个 模块 都 有 自己 的 开发 框架 ， 代码 的 可 重用 性 降低 ， 
维护 难度 高 。 











改进 点 

制定 统一 的 架构 原则 和 方法 ， 抽 取 公 共 组 件 。 完 善 设计 开发 规范 ， 形 成 统一 的 、 完 整 的 
技术 体系 框架 。 

问题 3 





未 形成 统一 的 数据 采集 技术 支撑 体系 ， 特 别 是 多 渠道 的 、 零 散 的 对 外 采集 子 系统 ， 增 加 
了 数据 采集 质量 的 管理 难度 。 

改进 点 

形成 统一 的 数据 采集 技术 支撑 体系 ， 整 合 数据 采集 技术 ， 实 现 自动 化 的 数据 采集 功能 ， 
增加 断 点 续 传 能 力 和 数据 传输 监控 能 








问题 4 
对 数据 校 验 、 入 库 、 加 工 处 理 和 统计 分 析 能 力 的 不 足 。 
改进 点 


可 以 引入 ETL 技术 ,满足 数据 处 理 和 加 工 的 工作 要 求 。 同 时 引入 数据 仓库 的 技术 ， 提 
高 对 海量 数据 的 统计 分 析 能 

三 、 未 来 数据 架构 的 参考 点 

对 于 未 来 数据 架构 ， 可 以 参考 以 下 思想 内 容 : 

首先 强调 数据 的 存储 与 流转 ， 文 持 层 次 化 的 处 理 ， 包 括 对 结构 化 数据 与 非 结 构 化 数据 的 
处 理 能 力 。 例 如 ， 数 据 架 构 的 层次 可 以 包括 源 数 据 、 内 容 管 理 、 数 据 交换 、 数 据 存储 区 、 数 
据 加 工区 和 应 用 。 下 面 对 这 几 个 层次 进行 说 明 。 

(1) 源 数据 

源 数据 可 以 包括 如 来 自 互联 网 、 政 府 部 门 、 同 业 、 手 工 录入 的 信息 。 对 于 数据 源 来 说 ， 
主要 定义 数据 采集 的 来 源 、 格 式 和 和 采集 方法 等 内 容 。 

(2) 内 容 管理 

内 容 管理 提供 对 各 种 非 结构 化 数据 的 存储 、 访 问 和 管理 的 能 力 。 例 如 ， 对 图 像 、 音 频 信 
息 和 办 公文 档 等 信息 的 处 理 能 力 。 为 半 结 构 化 和 非 结构 化 数据 提供 捕获 、 管 理 、 存 储 、 保 护 
和 交付 等 方面 的 功能 。 
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(3) 数据 交换 

数据 交换 包括 数据 的 抽取 、 订 阅 ， 以 及 ETL 过 程 等 内 容 。 为 系统 与 外 部 数据 交换 提供 
支持 。 

(4) 数据 存储 区 

例如 ODS、 基 础 数据 存储 、 非 结构 化 数据 存储 。 数 据 存 储 是 保存 从 各 个 数据 源 采集 的 、 
贴 数据 源 的 、 近 期 的 数据 和 全 量 的 基础 数据 ， 全 量 的 基础 数据 将 作为 后 续 数 据 加 工 的 唯一 可 
信 数 据 源 。 

(5) 数据 加 工区 

数据 加 工区 包括 数据 仓库 、 主 数据 和 查询 库 等 。 例 如 在 主 数据 中 进行 身份 信息 整合 
加 工 。 

(6) 应 用 

应 用 包括 查询 类 应 用 、 分 析 类 应 用 和 管理 类 分 析 。 根 据 参 考 架 构 进行 目标 架构 的 设计 ， 
未 来 数据 架构 是 在 参考 架构 的 基础 上 ， 结 合 业务 特点 进行 一 系列 的 调整 而 成 的 。 

四 、 对 未 来 架构 的 解读 

未 来 架构 的 重点 在 于 对 源 数 据 层 、 内 容 管理 、 数 据 交 换 层 、 数 据 存储 区 、 数 据 加 工区 、 
应 用 的 分 析 和 解读 。 

1. 源 数据 层 

数据 源 层 需 要 描述 采集 数据 的 类 型 ， 例 如 采集 的 数据 一 般 分 为 结构 化 数据 和 非 结 构 化 数 
据 ， 其 中 非 结构 化 数据 可 以 包括 各 种 音频 、 图 像 、 视 频 等 信息 。 我 们 从 以 下 几 个 角度 对 数据 
源 层 进行 分 析 : 数据 来 源 、 格 式 特征 、 数 据 量 和 频率 等 内 容 。 如 图 3-8 所 示 。 

站 冯 数据 来 源 























于 格式 尾 征 











六 频率 
3-8 ”对 源 数据 层 进行 分 析 








(1) 数据 来 源 

例如 ， 从 外 部 数据 库 ， 或 以 手工 录入 、 网 络 息 虫 等 多 种 形式 抽取 数据 。 

(2) 格式 特征 

判断 数据 的 采集 是 以 结构 化 数据 为 主 还 是 以 非 结 构 化 数据 为 主 。 

(3) 频率 

考虑 多 长 时 间 生 成 数据 。 

(4) 数据 量 

考虑 采集 的 数据 量 是 多 少 ， 是 新 增 的 数据 量 大 还 是 更 新 的 数据 量 大 。 
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对 源 数 据 的 采集 ， 需 要 考虑 对 采集 数据 的 唯一 定位 。 举 例 来 说 ， 个 人 信息 的 采集 需要 考 
上 处 是 否 可 以 用 姓名 、 证 件 类 型 、 证 件 号 码 的 方式 对 个 人 进行 定位 ， 因 为 同一 个 人 的 不 同 证 件 
可 能 会 定义 成 不 同 的 实体 。 

2. 内 容 管理 

内 容 管 理 主要 提供 对 非 结 构 化 数据 的 存储 、 访 问 和 管理 功能 。 例如， 系统 可 以 从 其 他 渠 
道 采集 非 结构 化 数据 ， 然 后 再 通过 标注 或 者 文本 挖 气 技术， 建立 非 结构 化 数据 的 元 数据 ， 在 
此 基础 上 与 结构 化 数据 整合 ， 再 存储 到 数据 仓库 中 ， 以 供 分 析 使 用 ， 或 者 对 非 结构 化 数据 建 
立 单独 的 分 析 应 用 。 

具体 做 法 是 先 将 非 结 构 化 数据 存储 在 库 中 ， 然 后 通过 建立 标签 和 摘要 等 方式 获取 结构 化 
的 信息 ， 再 利用 数据 交换 层 加 载 到 数据 缓存 区 中 ， 最 后 加 载 到 数据 仓库 中 ， 以 供 分 析 使 用 。 

3. 数据 交换 层 

数据 交换 层 承 载 着 数据 库 之 间 的 数据 交换 功能 ， 交 换 层 可 以 包括 外 部 交换 层 和 内 部 交 
换 层 。 

一 般 来 说 ， 数 据 交 换 层 包含 ETL 过 程 ， 数 据 的 抽取 、 订 阅 ， 质 量 检查 等 功能 ， 如 图 3-9 
所 示 。 

















ETL 过 程 数据 的 抽取 、 订 阅 功能 质量 检查 


0 和 改 


3-9 数据 交换 层 的 功能 





(1) ETL 过 程 

ETL 过 程 包括 数据 的 抽取 、 清 洗 、 转 换 和 加 载 。 在 清洗 过 程 中 还 包括 数据 的 预 处 理 校 
验 、 入 库 校 验 、 数 据 关联 校 验 等 内 容 ， 经 过 去 重 、 合 并 、 拆 分 、 标 准 化 和 整合 等 过 程 ， 将 
转换 后 的 数据 加 载 到 目标 库 中 。 

(2) 数据 的 抽取 、 订 阅 功能 

数据 的 抽取 、 订 阅 是 为 了 从 数据 源 层 中 获取 原始 数据 ， 并 且 实 现 一 源 多 目标 的 数据 更 新 
方式 。 如 图 3-10 所 示 ， 抽 取 、 订 阅 是 可 以 实时 或 准 实时 、 批 量 获 取 源 系统 的 增 量 或 全 量 数 
据 ， 然 后 再 根据 不 同 的 需求 和 业务 规则 将 数据 分 发 到 不 同 的 目标 库 中 。 
订阅 


定制 化 A 
目标 库 A 


抽取 


项. El 





目标 库 B 
定制 化 B | 


图 3-10 数据 的 抽取 、 订 阅 
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(3) 质量 检查 功能 

数据 质量 检查 是 数据 交换 层 的 重要 工作 ， 包 括 验证 数据 的 类 型 、 格 式 、 长 度 等 内 容 ， 确 
保 经 过 数据 质量 检查 后 ， 数 据 能 够 满足 业务 和 技术 对 于 数据 的 基本 质量 要 求 。 经 过 数据 交换 
层 的 质量 检查 后 ， 可 以 生成 一 系列 的 文件 ， 例 如 清洗 的 结果 文件 、 记 录 清 洗 结果 的 报表 文件 
和 不 合格 文件 等 。 

清洗 结果 文件 是 经 过 数据 质量 检查 后 ， 符 合 一 致 性 、 准 确 性 和 完整 性 的 合格 的 文件 ， 可 
以 当做 后 续 加 工 处 理 的 唯一 可 信 的 输入 文件 。 

记录 清洗 结果 的 报表 文件 包含 了 数据 最 原始 的 信息 和 清洗 过 程 中 的 相关 信息 ， 例 如 数据 
不 合格 的 原因 、 对 数据 不 合格 的 标识 等 内 容 。 

不 合格 文件 是 经 过 数据 质量 检查 后 ， 不 符合 数据 一 致 性 、 准 确 性 和 完整 性 要 求 的 数据 ， 
是 没有 通过 质量 检查 的 数据 。 

数据 交换 层 关键 设计 : 

数据 交换 层 ， 包 括 外 部 数据 交换 和 内 部 数据 交换 ， 文 持 系统 内 部 和 系统 之 间 的 数据 在 各 
个 数据 库 之 间 的 流转 ， 如 图 3-11 所 示 。 


主 数据 E ES | 、 
查询 库 | 


医 … 
四 构 化 数 








管理 类 分 析 





数据 仓库 | 医 … | 


图 3-11 数据 交换 层 


。 以 增 量 的 方式 捕获 数据 

将 源 系 统 导 出 为 增 量 文件 ， 供 后 续 加 工 和 并 行 加 载 ， 用 来 提升 效率 。 增 量 捕获 的 方式 包 
括 : 触发 器 、 时 间 惟 、 全 表 对 比 和 系统 日 志 分 析 的 方式 等 。 

。 提高 数据 交换 的 效率 

通过 细 化 作业 任务 ， 保 证 数据 在 传输 过 程 中 不 执行 加 工 操作 ， 使 传输 和 加 工 以 并 行 的 方 
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式 进 行 ， 同 时 分 析 任 务 之 间 的 关联 关系 ， 确 定 任务 的 调度 机 制 。 这 些 方式 都 有 效 地 提高 了 数 
据 交 换 的 效率 。 

4. 数据 存储 区 

数据 存储 区 是 对 采集 来 的 数据 进行 校 验 和 存储 ， 最 后 形成 系统 后 续 加 工 唯一 可 信 的 数据 
源 。 数 据 存储 层 包 括 ODS 、 基 础 数据 存储 和 非 结构 化 数据 存储 ， 如 图 3-12 所 示 。 

(1) ODS 

ODS 可 以 分 成 两 部 分 内 容 ， 一 个 是 临时 缓冲 区 ， 另 一 个 是 加 载 区 ， 如 图 3-13 所 示 。 








ODS 关联 校 验 
图 3-12 数据 存储 区 图 3-13 ODS 


临时 缓冲 区 是 经 过 格式 校 验 的 数据 缓冲 区 ， 它 是 贴 数 据 源 的 数据 存储 。 临 时 缓冲 区 的 数 
据 和 加 载 区 数据 可 以 进行 关联 校 验 ， 如 果 满 足 逻 辑 校 验 的 要 求 ， 则 该 新 增 数据 直接 插 人 到 数 
据 加 载 区 ， 并 且 蔡 换 掉 加 载 区 上 期 的 数据 。 

下 面 介 绍 一 下 ODS 具有 的 特性 : 

首先 ， 对 于 传统 的 ODS 来 说 ， 它 是 面向 主题 的 、 即 时 的 ， 也 可 以 是 贴 数据 源 的 ， 反映 
当前 数据 变化 的 内 容 。 

ODS 保存 最 近 一 期 的 数据 ， 为 了 快速 生成 查询 报告 ， 同 时 校 验 数据 和 对 基础 数据 存储 
进行 供 数 ， 提 高 对 海量 数据 的 快速 加 载 和 校 验 能 力 。 

其 次 ， 对 于 数据 的 校 验 来 说 ， 加 载 区 保存 了 上 期 的 数据 ， 根 据 逻 辑 校 验 的 需求 ， 可 以 包 
含 由 数据 源 的 数据 ， 也 可 以 对 某 些 指标 进行 累计 汇总 。 校 验 规则 可 以 有 以 下 几 种 : 

1) 新 增 数据 和 最 近 上 期 数据 的 关联 校 验 。 例 如 ， 对 于 本 月 还 房贷 的 累计 次 数 一 定 大 于 
上 一 期 的 累计 次 数 。 

2) 新 增 数 据 和 累计 汇总 指标 的 关联 校 验 。 例 如 ， 贷 款 金 额 - 贷款 余额 < 累计 还 款 
金额 。 

但 是 对 于 漏 报 补报 的 数据 ， 一 般 来 说 ， 不 具备 关联 校 验 的 条 件 。 

(2) 基础 数据 存储 

基础 数据 存储 作为 系统 唯一 可 信 的 数据 源 ， 存 储 校 验 通 过 的 数据 ， 也 存储 非 结构 化 数据 
结构 化 后 的 信息 。 基 础 数据 存储 可 以 实时 批量 地 导出 增 量 文 件 ， 以 供 后 续 加 工 使 用 ， 如 
图 3-14 所 示 。 
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作为 系统 唯一 可 信 的 数据 源 


| 实时 批量 导出 增 量 文件 
E 人 Wl 


非 结构 化 数据 的 结构 化 过 程 








关联 校 验 
非 结构 化 数据 


图 3-14 ”基础 数据 存储 








(3) 非 结构 化 数据 
非 结构 化 数据 是 指 存储 经 过 处 理 后 的 非 结构 化 数据 。 


5. 数据 加 工区 
数据 加 工区 的 数据 来 源 于 基础 数据 存储 ， 并 将 加 工 后 的 数据 提供 给 应 用 层 。 数 据 加 工区 


包括 查询 库 、 主 数据 和 数据 仓库 ， 如 图 3-15 所 示 。 
数据 加 工区 





查询 库 


主 数据 














图 3-15 数据 加 工区 
(1) 查询 库 概述 
对 于 查询 库 的 产品 ， 可 以 批量 地 将 基础 数据 存储 导出 的 增 量 文件 加 载 到 查询 库 中 ， 然 后 
再 进行 产品 的 加 工 。 
(2) 主 数据 概述 
主 数据 是 描述 核心 业务 实体 及 其 关系 的 数据 ， 但 是 不 是 交易 流水 类 的 数据 ， 主 数据 有 具备 
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共享 价值 、 相 对 静态 稳定 的 特点 。 在 主 数据 中 ， 包 括 对 主体 的 识别 和 归并 ， 也 就 是 利用 规则 
的 识别 、 合 并 和 和 覆盖 人 处理， 实现 主体 的 唯一 性 ， 提 高 主体 数据 的 可 信和 度 ， 并且 使 用 唯一 主体 
标识 进行 标识 。 

例如 ， 对 于 个 人 的 基本 信息 可 以 使 用 证 件 类 型 、 证 件 号 码 和 姓名 作为 唯一 标识 。 其 他 信 
息 均 反映 个 人 的 真实 信息 。 个 人 信息 的 识别 过 程 如 图 3-16 所 示 ， 证 件 类 型 、 证 件 号 码 和 姓 
名 可 以 作为 客户 A 的 唯一 标识 。 

















主体 识别 的 详细 过 程 : 

因为 国情 的 不 同 ， 有 些 国家 的 身份 信息 整合 方式 是 以 自然 人 为 整合 对 象 ， 主 要 利用 姓 
名 、 证 件 号 码 、 地 址 等 信息 进行 整合 ， 然 后 采用 自主 研发 的 数据 匹配 和 整合 技术 ， 并 且 通 过 
疑似 查询 、 模 糊 匹 配 等 先进 手段 ， 对 信息 进行 整合 。 而 国内 可 以 采用 证 件 类 型 、 证 件 号 码 和 
姓名 进行 身份 识别 ， 对 于 识别 出 来 的 职业 、 地 址 等 信息 可 以 按照 时 间 排 序 等 手段 来 取舍 。 

例如 ， 对 于 一 些 疑 似 身 份 信息 的 整合 过 程 ， 包 括 : 明确 身份 信息 整合 的 规则 定义 、 疑 似 
身份 信息 清单 的 生成 、 疑 似 身份 信息 的 整合 及 归并 等 内 容 。 

举例 来 说 ， 身 份 信息 的 疑似 规则 可 以 包括 : 姓名 + 手机 号 、 姓 名 + 出 生日 期 等 。 疑 似 身 
份 信息 整合 可 以 将 疑似 清单 发 送 给 相关 人 员 进 行 确认 。 归 并 过 程 是 将 疑似 身份 信息 清单 进行 
合并 和 整合 ， 如 将 地 址 信息 、 联 系 信息 合并 。 

数据 整合 搁 术 如 图 3-17 所 示 。 








根据 不 同 维度 给 出 不 
同 的 答案 


确认 一 条 真实 可 信 的 “、、 按照 某 种 优先 级 展现 
记录 ， 将 缺失 的 数据 | 全 部 数据 


补 全 





图 3-17 数据 整合 技术 
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1) 对 于 多 条 信息 的 识别 ， 首 先 根据 规则 确认 一 条 真实 可 信 的 记录 ， 然 后 将 缺失 的 数据 
补 全 。 

2) 保存 所 有 的 信息 ， 根 据 不 同 维度 给 出 不 同 的 答案 。 

3) 保存 所 有 的 信息 ， 按 照 某 种 优先 级 展现 全 部 数据 。 

(3) 数据 仓库 概述 

数据 仓库 主要 存储 全 局 的 信息 。 我 们 可 以 把 数据 仓库 分 成 
基础 数据 、 汇 总 加 工 和 库 内 集 市 ， 如 图 3-18 所 示 。 其 中 基础 i 

数据 





数据 仓库 








数据 和 汇总 加 工 主 要 为 库 内 集 市 提供 数据 。 对 于 简单 加 工 和 以 加 工 
查询 为 主 的 数据 服务 ， 尽 量 不 使 用 数据 仓库 。 对 于 需要 大 量 历 
史 数 据 和 复杂 计算 的 ， 可 以 使 用 数据 仓库 。 

因为 数据 仓库 通常 包含 历史 数据 ， 记 录 了 各 个 阶段 的 历史 图 3-18 数据 仓库 
信息 ， 所 以 对 查询 的 时 效 性 要 求 不 高 。 一 般 来 说 ， 数 据 仓库 是 不 进行 删除 的 。 

(1) 基础 数据 

基础 数据 存储 了 数据 仓库 最 具 细 节 性 的 数据 ， 它 可 以 来 源 于 基础 数据 存储 、 主 数据 中 的 
身份 信息 整合 和 查询 类 相关 产品 的 信息 等 内 容 。 一 般 来 说 ， 基 础 数据 按照 数据 仓库 模型 进行 
组 织 ， 同 时 作为 汇总 加 工 层 的 数据 源 。 

数据 仓库 中 的 基础 数据 和 基础 数据 存储 是 有 区 别 的 。 

1) 首先 ， 它 们 的 目的 不 同 ， 基 础 数据 存储 作为 系统 唯一 可 信 的 数据 源 ， 而 数据 仓库 中 
的 基础 数据 是 为 数据 仓库 后 续 加 工 考虑 的 。 

2) 然后 ， 基 础 数据 存储 是 贴 数 据 源 的 ， 支 持 对 各 种 产品 的 加 工 ， 时 效 性 较 高 ， 并 且 对 
数据 仓库 供 数 。 而 数据 仓库 中 的 基础 数据 一 般 来 说 是 按照 第 三 范式 进行 存储 的 ， 它 强调 对 各 
种 数据 的 集成 ， 时 效 性 较 低 。 

3) 最 后 ， 数 据 仓库 中 的 基础 数据 除了 存储 基础 数据 存储 的 数据 外 ， 还 存储 主 数据 的 身 
份 整合 信息 和 产品 信息 等 内 容 ， 目 的 是 支持 高 级 的 决策 分 析 。 

(2) 汇总 加 工 

汇总 加 工 是 对 基础 数据 的 明细 数据 进行 轻 度 汇总 ， 通 过 对 常用 数据 的 汇总 ， 可 以 降低 后 
续 ETL 的 复杂 性 。 

(3) 库 内 集 市 

库 内 集 市 可 以 分 成 分 析 类 集 市 和 管理 类 集 市 。 它 们 都 是 根据 业务 需求 形成 的 数据 集合 。 

分 析 类 集 市 是 通过 数据 挖掘 、 文 本 分 析 、 预 测 分 析 等 手段 ， 帮 助 企业 挖掘 有 用 的 信息 ， 
以 提高 企业 决策 分 析 的 能 

管理 类 集 市 是 指 为 了 企业 管理 的 需求 而 进行 的 数据 分 析 ， 可 以 包括 管理 驾驶 舱 、 固 定 的 
报表 、OLAP 多 维 分 析 等 内 容 。 

对 于 数据 仓库 质量 的 管理 ， 可 以 包含 以 下 几 种 方式 

1) 采用 抽样 统计 分 析 的 方法 监测 数据 仓库 的 质量 。 
通过 抽样 的 统计 分 析 方法 来 提高 数据 的 加 载 效率 和 快速 发 现 数据 的 错误 。 首 先 判定 
该 批 次 数据 的 质量 等 级 ， 然 后 根据 不 同 的 质量 等 级 ， 采 用 不 同 级 别 的 校 验 规 则 。 对 于 质 
量 等 级 非常 好 的 一 批 数据 ， 可 以 采用 较为 宽松 的 校 验 规 则 对 每 条 记录 逐条 检查 。 反 之 ， 
则 采用 较为 严格 的 校 验 规则 逐条 检查 。 这 种 方式 可 以 大 大 提高 数据 的 加 载 人 库 效率 和 数 
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据 质量 检查 效率 。 

换 句 话说 ， 保 证 数据 的 质量 检查 尽量 在 入 库 前 完成 。 如 果 发 现 入 库 后 的 数据 质量 有 问 
题 ,， 那么 可 以 采用 异议 处 理 或 者 其 他 方式 进行 改进 。 如 果 在 人 库 前 发 现 系统 级 别 的 错误 ， 则 
将 错误 结果 反馈 给 源 系统 ， 如 图 3-19 所 示 。 








采用 抽样 统计 分 析 的 方法 





判断 该 批 次 数据 质量 的 等 级 





当 发 现 系 统 级 别 的 错误 时 ， 


批量 的 数据 采用 不 同 级 别 的 校 验 规则 将 结果 反馈 给 源 系统 。 
反之 ， 则 入 库 
数据 仓库 
对 于 入 库 后 的 数据 质量 问题 ， 


可 以 采用 异议 处 理 或 其 他 
方式 






































图 3-19 抽样 统计 分 析 的 方法 


2) 对 于 数据 仓库 质量 ， 可 以 采用 格式 校 验 、 逻 辑 校 验 的 方式 和 两 端 数 据 对 比 的 方式 进 
行 验 证 。 如 果 发 现 两 端 数据 不 一 臻 ， 则 将 结果 反馈 给 源 系统 进行 核查 ， 如 图 3-20 所 示 。 





抽取 部 分 源 数 据 做 两 端 数 据 核对 

EE 理 库 
源 数据 | 
E 

合 
如 果 发 现 两 端 数据 不 一 致 ， | 
反馈 给 源 系 统 进行 核查 
数据 仓库 








人 
逻辑 校 验 
入 库 


图 3-20 数据 仓库 质量 验证 


3) 在 数据 仓库 部 署 业务 检查 规则 和 技术 检查 规则 ， 周 期 性 地 对 数据 仓库 质量 进行 
查 ， 并 且 将 检查 结果 提交 给 质量 管理 平台 ， 由 质量 管理 平台 对 提交 的 检查 结果 进行 识别 和 分 
析 ， 最 后 再 提交 给 源 系统 去 治理 和 改进 ， 如 图 3_21 所 示 。 

需要 理解 的 是 ， 数 据 仓库 不 仅仅 是 技术 ， 它 更 是 一 个 管理 课题 。 从 内 部 管理 上 来 说 ， 它 
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过 









源 系 统 不 断 











改进 数据 质量 质量 管理 平 砍 
| 对 提交 的 检查 结果 进 
了 二 行 识别 和 分 析 
对 数据 仓库 质量 





进行 检查 








| 





3-21 数据 仓库 部 署 检查 规则 





将 检查 结果 提交 给 


质量 管理 平台 


可 以 真实 地 反映 企业 的 经 营 状 况 和 未 来 的 发 展 趋势 ， 为 领导 决策 和 经 营 管 理 提供 准确 和 全 面 


的 分 析 。 同 时 可 以 利用 数据 挖掘 ， 更 好 地 为 客户 服务 。 有 关 数 据 仓 库 的 介绍 ， 
细 介 绍 。 
6. 应 用 








将 在 第 9 章 详 


应 用 可 以 包含 各 种 查询 类 应 用 、 分 析 类 应 用 和 管理 类 应 用 。 它 们 的 数据 源 来 自 于 数据 加 


工区 的 数据 ， 同 时 可 以 将 数据 查询 记录 返回 给 数据 仓库 作为 分 析 数 据 使 用 。 
3.3.2 目标 数据 染 构 的 分 布 和 流转 


下 面 将 从 数据 分 类 的 角度 ,分析 数据 在 未 来 数据 架构 各 个 人 逻辑 库 上 的 分 布 及 流转 。 


对 于 逻辑 库 的 设计 原则 ， 可 以 包含 以 下 几 个 方面 ， 如 图 3-22 所 示 。 


1. 数据 的 共享 性 2. 数据 的 管理 性 3. 数据 的 高 性 能 4. 数据 的 可 用 性 














图 3-22 逻辑 库 的 设计 原则 


(1) 数据 的 共享 性 

减少 数据 复制 并 降低 数据 的 元 余 度 ， 提 高 数据 的 共享 性 。 
(2) 数据 的 管理 性 

考虑 系统 对 于 数据 管理 方面 的 要 求 ， 特 别 是 数据 质量 的 管理 。 
(3) 数据 的 高 性 能 

基于 性 能 的 考虑 ， 可 以 将 加 工 和 查询 分 开 。 

(4) 数据 的 可 用 性 

确保 系统 对 外 服务 的 时 间 窗 口 尽 可 能 延长 ， 减 少 停 机 的 时 间 。 








对 于 数据 架构 的 分 布 和 流转 ， 需 要 先 了 解 逻辑 库 包 含 哪些 内 容 ， 如 图 3-23 所 示 。 





e ODS 
主要 存储 贴 数 据 源 的 最 近 一 期 的 数据 。 
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eh, 
基础 数据 








DOS 





@) 




















图 3-23 逻辑 库 相 关内 容 





e 基础 数据 存储 
主要 存储 校 验 过 的 明细 的 基础 数据 ， 存 储 的 期 限 根据 业务 需求 制定 。 
。 非 结构 化 数据 
主要 存储 互联 网 或 者 其 他 渠道 获得 的 经 过 处 理 的 非 结 构 化 数据 。 
e 查询 库 
主要 进行 数据 加 工 或 者 产品 加 工 ， 保 存 过 程 数据 。 
。 数据 仓库 
主要 保存 基础 的 历史 数据 ， 或 者 主 数据 、 产 品 的 信息 ， 供 后 续 加 工 和 使 用 。 
。 主 数据 
主要 存储 核心 业务 实体 和 实体 之 间 关 系 的 数据 ， 如 唯一 身份 识别 信息 。 
。 应 用 
存储 复制 的 数据 并 提供 对 外 服务 。 
、 数 据 架 构 的 分 布 
数据 分 布 主要 分 析 业 务 数据 在 多 个 系统 之 间 和 多 个 环节 之 间 的 分 布 情况 。 下 面 主 要 分 析 
业务 数据 在 各 个 逻辑 库 之 间 的 分 布 状况 ， 举 例 见 表 3-2。 
表 3-2 业务 数据 在 各 个 逻辑 库 之 间 的 分 布 状况 














































































































池 辑 库 业务 数据 
ODS 个 人 基本 信息 、 企 业 信息 、 交 易 信息 、 财 务 信息 等 基础 信息 
基础 数据 存储 个 人 基本 信息 、 企 业 信息 、 交 易 信息 、 财 务 信 息 等 基础 信息 
非 结构 化 数据 互联 网 信息 
查询 库 查询 服务 类 的 信息 
站 二 0 
谷 
主 数据 个 人 身份 信息 、 企 业 身份 信息 等 内 容 
应 用 查询 服务 类 的 信息 








二 、 数 据 架 构 的 流转 规划 
数据 流转 是 描述 业务 分 类 在 各 个 逻辑 库 之 间 的 流转 情况 ， 如 图 3-24 所 示 。 
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基础 数据 存储 
ODS | 





数据 仓库 
图 3-24 数据 流转 


首先 ,企业 信息 和 个 人 基本 信息 在 ODS 中 临时 存储 并 且 进 行 校 验 ， 当 校 验 通过 后 存放 
到 基础 数据 存储 中 ， 然 后 ， 将 这 些 信息 加 载 到 主 数据 中 进行 企业 身份 信息 整合 和 个 人 身份 信 
息 整合 ， 最 后 ， 将 个 人 基本 信息 和 企业 信息 加 载 到 数据 仓库 中 。 

合理 的 数据 分 布 和 流转 可 以 提高 数据 的 一 致 性 ,减少 数据 元 余 ， 从 而 提高 数据 的 灵活 性 
和 可 扩展 性 。 

首先 ， 核 心 的 数据 尽量 不 要 反复 地 分 布 在 不 同 的 数据 库 中 ， 这 样 可 以 降低 数据 不 一 致 性 
的 风险 ， 但 是 有 时 候 基于 系统 性 能 的 考虑 ， 有 些 合理 的 元 余 是 可 以 存在 的 。 

其 次 ， 在 数据 分 布 中 需要 建设 一 个 唯一 可 信 的 数据 源 ， 这 样 保证 在 后 续 的 加 工 过 程 中 有 
依据 可 查 ， 同 时 提高 了 数据 的 一 致 性 。 

再 次 ， 尽 量 缩短 数据 加 工 链条 。 例 如 ， 身 份 信息 在 主 数据 中 加 工 ， 然 后 对 应 用 和 数据 仓 
库 供 数 ， 基 础 数据 存储 为 数据 仓库 、 主 数据 和 查询 库 提 供 增 量 数据 ， 这 几 条 链 路 单独 加 工 ， 
并 行 处 理 ， 提 高 了 效率 。 





三 、 数 据 归档 aa 
数据 归档 是 指定 期 将 基础 数据 存储 、 \ 
应 用 的 数据 进行 归档 保存 ， 它 的 目的 是 为 《| an oo 
了 保存 原始 数据 。 原 则 上 数据 归档 对 中 间 5 
数据 或 者 临时 数据 不 进行 归档 操作 。 LA 
数据 归档 可 以 帮助 数据 再 次 核对 和 备 Ee 
查 。 数据 归档 包括 在 线 存储 、 近 线 存 储 和 ee 














离线 存储 ， 如 图 3-25 所 示 。 

(1) 在 线 存储 

在 线 存储 主要 保存 近期 业务 数据 ， 对 在 线 存 储 的 访问 频率 相对 较 高 。 可 以 使 用 高 速 磁盘 
对 数据 进行 保存 。 

(2) 近 线 存储 

近 线 存储 主要 保存 访问 频率 相对 较 低 的 数据 ， 一 般 使 用 低速 磁盘 进行 存储 。 
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(3) 离线 存储 
离线 存储 主要 保存 数据 访问 频率 低 ， 很 少 存在 加 工 需 求 的 数据 ， 可 以 使 用 光盘 ， 磁 带 等 
价格 低廉 的 介质 保存 。 


3.3.3 对 数据 架构 的 验证 和 总 结 


一 、 总 体 数据 流转 方案 验证 

首先 ， 数据 通过 数据 交换 层 进入 到 ODS 中 的 缓冲 区 ,缓冲 区 是 贴 数据 源 的 。 缓 冲 区 的 
数据 与 加 载 区 的 数据 进行 关联 逻辑 校 验 ， 校 验 通 过 后 再 替换 掉 加 载 区 的 数据 。 

然后 基于 实时 批量 的 方式 ， 将 校 验 通过 的 加 载 区 的 数据 统一 存储 在 基础 数据 存储 中 。 

最 后 基于 实时 批量 的 方式 将 基础 数据 存储 的 数据 导出 成 增 量 文件 ， 为 后 续 加 工 供 数 。 

数据 流转 方案 验证 如 图 3-26 所 示 。 











于 实时 批量 方式 将 
基础 数据 存储 的 数据 
出 成 增 量 文件 
es 将 校 验 人 
的 加 载 区 的 数据 统一 存储 | 
，” f 放 数据 存储 中 








查询 库 





源 数 据 通 过 数据 交换 层 进入 到 
ODS 中 的 缓冲 区 ， 缓 冲 区 
是 贴 数 据 源 的 





增 量 文件 











是 基础 数据 存储 E 有 








| | 


数据 仓库 








过 后 替换 掉 加 载 区 的 数据 





缓冲 区 的 数据 和 加 载 区 的 数据 有 
进行 关联 逻辑 校 哈 ， 校 验 通 








图 3-26 数据 流转 方案 验证 


二 、 产 品 加 工 方案 场景 验证 
简单 查询 类 产品 在 查询 库 中 加 工 ， 然 后 按 日 统一 将 加 工 后 的 数据 复制 到 应 用 中 ， 统 一 


外 提供 查询 服务 。 
对 于 挖掘 分 析 类 的 需求 ， 应 该 在 数据 仓库 中 加 工 ， 有 时 为 了 性 能 考虑 ， 可 以 将 数据 仓库 
中 的 数据 迁移 到 库 外 集 市 加 工 。 


如 图 3-27 所 示 ， 一 些 基础 查询 类 的 产品 在 查询 库 中 加 工 获 取 ， 一 些 身份 加 工整 合 的 数 
据 从 主 数据 中 获取 ， 然 后 通过 查询 类 应 用 统一 对 外 提供 服务 。 
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数据 仓库 | 


图 3-27 产品 加 工 方案 场景 验证 

三 、 数 据 删 除 场 景 验证 

首先 ， 对 应 的 删除 数据 通过 数据 交换 层 进入 到 ODS 的 缓冲 区 ， 如 果 要 删除 的 数据 仅仅 
包含 历史 数据 ， 加 载 区 的 数据 不 需要 删除 。 如 果 删 除 的 数据 包含 最 近 上 一 期 的 数据 ， 则 需要 
删除 加 载 区 的 数据 。 

然后 ， 删 除 基 础 数据 存储 中 对 应 的 数据 ， 同 时 为 了 逻辑 校 验 ， 加 载 区 中 最 近 一 期 的 数据 
被 删 掉 后 ， 需 要 把 基础 数据 存储 中 最 近 一 期 的 数据 回 写 到 加 载 区 。 

最 后 ， 把 查询 库 和 数据 仓库 中 对 应 的 数据 删除 。 当 数据 删除 后 再 重新 加 工 ， 如 图 3-28 
所 示 。 


删除 基础 数据 存储 中 对 应 的 数据 ， 


























同时 为 了 逻辑 校 验 ， 加 载 区 中 最 近 一 期 的 | 
数据 被 删除 后 ， 和 需要 把 基础 数据 存储 查询 库 
删除 数据 通过 数据 交换 层 中 最 近 一 期 的 数据 写 回 到 加 载 区 
进入 到 ODS 中 的 缓冲 区 


删除 文件 


_ 关 肝 而 数据 存储 1 a wx 


多 数据 仓库 六 
疆 
如 果 要 删除 的 数据 仅仅 包含 历史 数据 ， Es 加 
加 载 区 的 数据 不 需要 删除 。 如 果 出 除 的 
数据 包含 最 近 上 一 期 的 数据 ， 则 需要 









删除 数据 





删除 加 载 区 的 数据 





图 3-28 数据 删除 场景 验证 
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基于 调度 机 制 确保 数据 一 致 性 : 
1) 到 达 当 天 截至 的 时 间 点 , 例如 凌晨 12 点 ， 加 载 完 当天 上 传 的 所 有 源 数 据 ， 如 
图 3-29 所 示 。 
凌晨 12 点 加 载 完 当前 的 
所 有 源 数据 


1 
1 
1 
| 
1 
数据 源 } BS > 
中 


1 数据 载 。 届 
E“ 


图 3-29 加 载 当 天 数据 
2) 当 最 后 一 个 加 载 任务 完成 之 后 ， 再 增加 最 后 一 个 传输 任务 ， 因 为 传输 的 是 最 后 一 个 
新 增 数据 ， 所 以 花费 的 时 间 不 会 太 多 ， 如 图 3-30 所 示 。 


当 最 后 一 个 加 载 任务 完成 之 后 ， 再 增加 
最 后 一 个 传输 任务 。 





| 














基础 数据 存储 


ODS 


缓冲 区 








3-30 增加 传输 任务 


3) 查询 库 数据 、 主 数据 、 数 据 仓库 的 数据 由 于 加 工 节奏 不 一 样 ， 因 此 数据 可 能 存在 不 
一 致 的 情况 。 在 数据 加 工 过 程 中 ， 因 为 加 工 流水 线 的 顺序 执行 原因 ， 在 某 一 个 时 刻 点 ， 不 同 
库 之 间 数 据 可 能 不 一 致 ， 需 要 分 析 业 务 是 否 能 够 接收 数据 的 不 一 致 性 ， 如 图 3-31 所 示 。 

查询 库 数据 、 主 数据 、 数 据 仓库 的 数据 由 于 加 工 节奏 不 一 样 ， 数 据 
号 各 在 不 致 的 情况 。 在 数 所 加 工 过 程 中 ， 流水 线 的 网 


序 执行 关系 ， 在 某 一 个 时 刻 点 ， 不 同 库 之 间 数据 可 能 不 一 致 
分 析 业 务 是 否 能 够 接受 数据 的 不 一 致 性 奉 询 库 















































到 过 
人 五 























基础 数据 存储 
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图 3-31 基于 调度 机 制 确保 数据 一 致 性 
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数据 架构 在 效率 、 灵 活性 以 及 扩展 性 方面 可 以 满足 业务 的 需求 ， 因 为 加 载 区 仅仅 存储 最 
近 上 一 期 的 历史 数据 ， 目 的 是 为 了 支持 快速 加 载 和 校 验 。 

加 载 区 通过 导出 文件 的 方式 ， 同 时 对 查询 库 、 主 数据 和 数据 仓库 供 数 。 基 础 查询 类 产品 
在 查询 库 中 单独 加 工 ， 分 析 类 产品 和 对 实时 性 要 求 不 高 的 产品 在 数据 仓库 中 加 工 。 

对 于 基础 数据 存储 来 说 ， 它 是 唯一 可 信 的 数据 源 ， 对 于 查询 类 产品 的 加 工 ， 它 直接 从 基 
础 数据 存储 中 增 量 获取 。 对 于 数据 仓库 来 说 ， 它 按 主 题 存 储 基础 数据 ， 用 于 实时 性 要 求 不 高 
的 统计 分 析 或 者 挖 据 分析。 




















小 结 


。 数据 架构 理论 体系 是 把 业务 和 技术 融合 到 一 起 的 一 套 体系 。 它 包括 技术 、 方 法 和 相应 
的 管理 过 程 。 经 过 几 十 年 的 发 展 ， 数 据 架 构 已 经 形成 了 完整 的 理论 体系 。 

e。 数据 架构 是 企业 架构 的 重要 组 成 部 分 ， 实 现 数据 的 合理 组 织 和 共享 ， 保 证 数据 在 系统 
之 间 的 一 臻 性、 完整 性 、 安 全 性 和 正确 性 。 

e 数据 架构 规划 中 需要 保证 数据 的 安全 性 、 可 用 性 、 完 整 性 、 真 实 性 和 抗 抵赖 性 。 

。 数据 架构 的 指导 原则 包括 灵活 性 原则 、 高 效 性 原则 、 可 扩展 性 原则 、 数 据 共享 原则 、 
数据 可 用 性 原则 、 数 据 安全 性 原则 。 

。 一 般 来 说 ， 数 据 架 构 包 含 数据 模型 和 分 类 、 数 据 分 布 和 流转 等 内 容 。 对 于 数据 治理 来 
说 ， 它 是 为 了 提升 数据 架构 各 个 层次 的 管控 和 协作 能 力 。 同 时 数据 架构 为 数据 治理 提 

供 基 础 能 力 支 撑 ， 因 此 ， 数 据 治理 与 数据 架构 可 以 说 是 相辅相成 的 。 

。 对 于 数据 架构 来 说 ， 我 们 可 以 从 几 个 方面 去 了 解 现状 存在 的 问题 是 什么 。 例 如 ， 判 断 
数据 架构 的 原则 是 否 清晰 、 架 构 层 次 的 划分 是 否 合理 等 内 容 。 

。 对 采集 的 数据 项 进行 分 析 ， 判 断 是 否 能 满足 对 产品 的 加 工 需 求 ， 效 率 问题 是 否 存在 改 
善 的 空间 ， 是 否 能 够 支持 数据 的 快速 入 库 ， 不 同系 统 之 间 的 数据 是 否 可 以 共享 ， 是 否 
可 以 规划 数据 交换 平台 ， 提 高 数据 加 工 的 效率 ， 保 证 数据 架构 满足 灵活 性 、 高 效 性 和 
可 扩展 性 。 

。 数据 模型 是 指 用 实体 、 属 性 及 其 关系 对 企业 运营 和 管理 过 程 中 涉及 的 业务 概念 和 逮 辑 
规则 进行 统一 定义 、 命 名 和 编码 。 

。 数据 模型 是 对 数据 特征 的 抽象 ， 它 一 般 分 为 概念 模型 、 逻 辑 模型 和 物理 模型 。 概 念 模 
型 是 以 数据 分 类 的 形式 体现 ， 而 逻辑 模型 以 ER 图 的 形式 体现 。 

。 概念 模型 是 从 业务 的 角度 对 数据 进行 抽象 ， 包 括 业 务 层 面 上 主题 域 的 划分 ， 以 及 各 个 
主题 域 下 的 数据 分 类 和 基于 分 类 的 非 功 能 属性 。 

。 数据 分 类 是 根据 业务 特征 对 数据 进行 归 类 和 划分 ， 并 用 层级 列表 的 方式 展示 数据 内 
容 。 数 据 分 类 的 规范 需要 满足 各 种 业务 需求 对 数据 组 织 的 要 求 。 

。 数据 分 类 是 概念 模型 的 体现 。 

。 数据 分 类 的 目标 是 可 以 促进 业务 人 员 和 技术 人 员 之 间 的 沟通 ， 指 导 技 术 人 员 对 数据 格 
式 的 制定 ， 指 导数 据 的 分 布 和 流转 。 

。 逻辑 数据 模型 是 用 来 发 现 、 记 录 和 沟通 业务 的 详细 “蓝图 ”， 由 一 系列 表 和 实体 详细 
描述 组 成 ， 是 通用 的 业务 语言 ， 便 于 业务 与 业务 之 间 的 功能 理解 ， 遵 循 第 三 范式 ， 包 
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括 主题 域 的 设计 、 基 本 实体 的 设计 和 主要 属性 的 设计 ,是 IT 人 员 和 业务 人 员 沟 通 的 
工具 和 桥梁 。 
。 物理 模型 是 对 逻辑 模型 针对 具体 实现 环境 的 物理 化 ， 可 以 不 遵循 第 三 范式 ， 主 要 包括 
实体 属性 的 物理 化 ， 属 性 的 长 度 、 类 型 、 主 键 、 外 键 、 索 引 等 详细 设计 。 

。 针对 主题 域 下 数据 分 类 ， 需 要 从 变动 频率 、 变 动量 、 变 动 模式 、 数 据 量 大 小 、 格 式 、 
共享 性 等 各 个 维度 进行 分 析 。 数 据 分 类 的 非 功能 属性 对 于 数据 分 布设 计 具 有 重要 的 参 
考 意义 。 

。 对 于 未 来 数据 架构 可 以 参考 以 下 的 思想 : 首先 强调 数据 的 存储 与 流转 ， 支 持 层次 化 的 
处 理 ， 包 括 对 结构 化 数据 与 非 结 构 化 数据 的 处 理 能 

e 数据 分 布 : 数据 分 布 主要 包括 业务 分 布 与 系统 分 布 。 数 据 分 布 主要 分 析 数 据 在 各 个 环 
节 中 的 创建 、 引 用 、 更 新 和 删除 ， 并 根据 业务 对 数据 的 处 理 特 点 ， 合 理 规 划 数据 的 
分 布 。 

e。 数据 架构 不 包含 数据 治理 方面 的 内 容 ， 但 是 数据 架构 为 数据 治理 提供 基础 能 力 支 撑 ， 
而 数据 治理 的 目的 是 提升 数据 架构 各 个 层次 的 管控 及 其 协作 能 

。 数据 架构 的 改进 方向 : 首先 应 该 明确 数据 架构 总 体 指导 原则 是 什么 ， 以 此 原则 指导 未 
来 数据 架构 。 明 确 数 据 架 构 的 各 个 层级 ， 对 每 个 层级 进行 数据 治理 。 

。 数据 流转 是 描述 业务 分 类 在 各 个 逻辑 库 之 间 的 流转 情况 。 

。 数据 归档 是 定期 将 基础 数据 存储 、 应 用 的 数据 进行 归档 保存 ， 它 的 目的 是 为 了 保存 原 
始 数据 。 原 则 上 数据 归档 对 中 间 数 据 或 者 临时 数据 不 进行 归档 操作 。 数 据 归档 可 以 帮 
助 数据 再 次 核对 和 备查 。 数 据 归 档 包 括 在 线 存 储 、 近 线 存 储 和 离线 存储 。 

。 数据 架构 在 效率 、 灵 活性 以 及 扩展 性 方面 可 以 满足 业务 的 需求 ， 因 为 加 载 区 仅仅 存储 
最 近 上 一 期 的 历史 数据 ， 目 的 是 为 了 文 持 快速 加 载 和 校 验 。 加 载 区 通过 导出 文件 的 方 
式 ， 同 时 对 查询 库 、 主 数据 和 数据 仓库 同时 供 数 。 基 础 查询 类 产品 在 查询 库 中 单独 加 
工 ， 分析 类 产品 和 对 实时 性 要 求 不 高 的 产品 在 数据 仓库 中 加 工 。 对 于 基础 数据 存储 来 
说 ， 它 是 唯一 可 信 的 数据 源 ， 对 于 查询 类 产品 的 加 工 ， 它 直接 从 基础 数据 存储 中 增 量 
获取 。 对 于 数据 仓库 来 说 ， 它 按 主题 存储 基础 数据 ， 用 于 实时 性 要 求 不 高 的 统计 分 析 
或 者 挖掘 分 析 。 
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第 4 章 ” 数 据 染 构 案例 


本 章 目 标 
通过 前 一 前 的 学 习 ， 我 们 已 经 理解 了 数据 架构 的 工作 方法 和 指导 原则 ， 包 括 概念 模型 、 








逻辑 模型 、 物 理 模型 的 建设 ,数据 分 类 的 规划 ， 未 来 数据 架构 的 分 布 和 流转 的 建设 ， 对 数据 
架构 的 验证 等 内 容 。 


面临 


本 章 在 前 一 章 的 基础 上 ， 重 点 介绍 项 目 总 体 规 划 的 几 个 阶段 、 系 统 项 目 建设 过 程 中 可 能 
的 风险 和 对 策 、 某 金融 行业 数据 架构 的 相关 案例 。 包 括 数据 架构 的 分 布 、 流 转 、 加 工 的 





处 理 时 序 、 数 据 纠 错 方案 介绍 、 数 据 架构 的 优化 和 数据 架构 实施 规划 等 内 容 。 


学 习 本 前 后 ,读者 将 擎 握 : 

e 数据 架构 在 项 目 阶段 规划 中 的 地 位 
。 项 目 总 体 规划 的 几 个 阶段 

。 系统 建设 策略 

。 项 目 阶段 建设 计划 

。 系统 项 目 建设 过 程 中 可 能 面临 的 风险 和 对 策 
。 任务 分 析 规 划 

。 菏 金 融 行业 数据 架构 的 分 布 规划 
。 东 金融 行业 数据 架构 的 流转 规划 
。 数据 架构 的 纠 错 更 正 需求 

。 数据 加 工 处 理 时 序 规划 

。 数据 架构 在 线 纠 错 更 正方 案 设计 
。 在 线 纠 错 更 正 的 指导 原则 

。 非 功 能 性 需求 

。 某 金 融 行 业 数 据 架构 优化 

。 某 金 融 行 业 数据 架构 案例 描述 
。 主 数 据 规划 

。 数据 仓库 规划 

。 数据 交换 平台 规划 

。 产品 加 工 流程 概述 

。 数据 架构 实施 规划 

。 系统 切换 规划 案例 





4.1 某 金 融 行业 数据 架构 的 前 期 规划 
4.1.1 理解 数据 架构 在 项 目 规划 中 的 地 位 
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数据 架构 在 项 目 规划 中 占有 非常 重要 的 地 位 。 





项 目 阶段 分 成 以 下 几 个 部 分 : 项 目 启动 阶段 ， 现 状 评估 、 高 阶 需求 分 析 阶 段 、 架 构 设 计 
和 规划 阶段 以 及 实施 规划 和 运 维 阶段 ， 如 图 4-1 所 示 。 其 中 现状 评估 和 高 阶 需 求 分 析 阶 段 
主要 是 理解 企业 发 展 战 略 和 业务 需求 ， 对 系统 现状 评估 和 高 阶 需 求 进行 分 析 。 在 架构 设计 和 
规划 阶段 ， 主 要 包含 应 用 架构 、 数 据 架构 、 技 术 架 构 和 开 治理 等 内 容 。 最 后 一 个 阶段 就 是 
实施 规划 和 运 维 阶段 。 








图 4-1 数据 架构 项 目 阶段 划分 


4.1.2 项 目 总 体 规 划 的 几 个 阶段 


在 系统 总 体 规划 过 程 中 ， 离 不 开 下 面 3 个 阶段 : 现状 分 析 和 需求 分 析 阶 段 、 总 体 规划 设 
计 阶 段 和 总 体 架 构 实 施 规 划 阶 段 ， 如 图 4-2 所 示 。 


现状 分 析 和 需求 分 析 扎 体 疯 划 区 实施 规划 








轩 绕 战略 意图 ， 总 结 未 来 」 主要 包括 : 数据 架构 规划 .| 实施 规划 包括 : 实施 路 线 
需求 ， 对 系统 进行 现状 分 | 应 用 架构 规划 、 技 术 架 构 | 图 的 规划 及 项 目 费用 估算 ， 
析 ， 并 总 结 信息 化 需求 。 规划 、IT 管控 架构 规划 和 | 对 项 目 进行 定义 ， 制 定 项 
分 析 当 前 系统 应 用 ， 以 及 | 灾难 备份 专题 。 目 实施 计划 等 内 容 。 

















陈 






































据 、 技 术 架 
析 当 前 治理 现 关 ， 提出 改 











图 4-2 系统 总 体 规划 

其 中 现状 分 析 和 需求 分 析 阶 段 主 要 是 围绕 战略 意图 ， 总 结 未 来 需求 ， 对 系统 进行 现状 分 
析 ， 并 总 结 信息 化 需求 。 分 析 当 前 系统 应 用 ， 以 及 数据 和 技术 架构 现状 ， 提 出 改进 建议 。 分 
析 当 前 架构 治理 现状 ， 提 出 改进 建议 。 

总 体 规划 设计 主要 包括 数据 架构 规划 、 应 用 架构 规划 、 技 术 架 构 规 划 、IT 管控 架构 规 
划 和 灾难 备份 专题 。 

实施 规划 包括 实施 路 线 图 的 规划 及 项 目 费用 估算 ， 对 项 目 进行 定义 ， 制 定 项 目 实施 计划 
等 内 容 。 


4.1.3 系统 建设 策略 
系统 建设 策略 主要 包含 以 下 两 种 方式 : 统一 开发 、 统 一 推广 和 快速 建设 方式 。 
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.统一 开发 、 统 一 推广 

ee 优点 是 阶段 划分 清晰 ， 管理 
难度 较 小 ， 但 缺点 是 周期 长 ， 前 期 推广 内 容 多 ， 对 业务 变化 的 适应 0 

2. 快速 建设 方式 

这 种 建设 策略 是 在 统一 规划 的 基础 上 ， 尽 早 完成 基础 平台 的 建设 ， 然 后 按照 业务 重点 需 
求 ， 快 速 开发 核心 的 系统 ， 再 逐步 推广 应 用 ， 最 后 按照 优先 级 别 的 高 低 ， 完 成 系统 的 建设 和 
优化 ， 如 图 4-3 所 示 。 整 个 系统 将 涵盖 所 有 的 业务 需求 。 这 种 方式 的 优点 是 可 以 迅速 抓 住 
重点 ， 能 够 快速 见效 。 可 以 把 项 目 建设 分 成 多 个 子 项 目 ， 将 核心 系统 的 推广 和 其 他 子 项 目的 
建设 结合 起 来 ， 缩 短 时 间 周 期 ， 节 约 开发 成 本 。 

















应 用 推广 阶段 


“ 业务 提升 阶段 ， 优 化 系统 








器 











4-3 人 快速 建设 方式 





对 于 快速 建设 方式 的 解读 ， 可 以 分 别 从 如 何 开发 基础 平台 和 核心 应 用 、 如 何 完成 应 用 的 
推广 、 业 务 提升 和 优化 系统 等 几 个 方面 进行 ， 如 图 4-4 所 示 。 

















遵循 需求 和 总 体 架构 设计 ， 完 成 系统 核心 应 用 开发 











选择 试点 ， 试 运行 系统 ， 按 照 推广 计划 ， 逐 步 推进 系统 管理 项 目的 实施 ， 
负责 应 用 试点 和 推广 工作 的 组 织 和 推进 






































配合 业务 运营 和 应 用 系统 运 维 ， 持 续 优 化 系统 ， 
完成 新 增 需求 的 建设 ， 加 快 系统 产品 和 服务 的 推广 ， 
扩大 系统 数据 采集 、 服 务 对 象 和 产品 的 范围 

















图 4-4 快速 建设 方式 的 解读 
4.1.4 项 目 阶 段 建设 计划 
项 目 阶 段 的 建设 计划 主要 包含 以 下 几 个 方面 : 项 目 启 动 、 需 求 分 析 、 系 统 设 计 、 开 发 和 
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测试 以 及 项 目 验 收 等 内 容 ， 如 图 4-5 所 示 。 


项 目 启动 


需求 分 析 


项 目 阶段 的 建设 计划 


系统 设计 


开发 和 测试 








图 4-5 项 目 阶 段 的 建设 计划 


其 中 项 目 启 动 包括 制定 项 目 计划 、 项 目 章程 和 制度 等 准备 工作 。 

需求 分 析 包 括 需求 调研 、 原 型 开发 、 需 求 分 析 等 工作 。 

系统 设计 包括 架构 设计 、 功 能 设计 、 数 据 库 设 计 等 工作 。 

开发 和 测试 主要 包括 功能 开发 、 系 统 对 外 接口 开发 、 单 元 测试 、 功 能 测试 、 性 能 测试 、 
用 户 测试 集成 测试 等 内 容 。 

最 后 是 项 目的 验收 。 

如 图 4-6 所 示 ， 针 对 项 目 建设 计划 ， 可 以 对 基础 设施 、 容 灾 和 系统、 产品 加 工 、 对 外 服 
务 、 数 据 加 工 和 数据 采集 进行 建设 。 





基础 设施 建设 


项 目 启动 
需求 分 析 


系统 设计 
开发 和 测试 








图 4-6 项 目 建设 计划 的 主要 内 容 
4.1.5 预算 及 风险 效益 分 析 


1. 预算 
预算 主要 包含 两 个 方面 的 内 容 : 一 是 对 硬件 、 软 件 平 台 、 应 用 软件 和 各 种 服务 的 投资 和 
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维护 的 费用 估算 ， 二 是 对 人 工 服 务 费 用 的 估算 ， 如 图 4-7 所 示 。 




















应 用 软件 





(1) 硬件 费用 








图 4-7 项 目 预算 


硬件 费用 主要 包括 各 种 服务 器 、 存 储 、 网 络 等 配套 设施 的 费用 。 


(2) 平台 软件 





平台 软件 费用 主要 包括 各 种 操作 系统 、 数 据 库 、 中 间 件 等 基础 平台 软件 的 费用 。 


(3) 应 用 软件 


应 用 软件 费用 主要 包括 各 种 专业 应 用 系统 的 实施 费用 ， 如 人 力 资源 管理 系统 、 数 据 仓 
库 、 财 务 管理 系统 、 开 审计 和 日 志 管 理 平台 、IT 运 维 管理 平台 、CRM 系统 的 建设 和 实施 。 


(4) 服务 费用 


服务 费用 主要 包括 项 目 管理 、 系 统 架 构 设 计 、 编 码 的 费用 。 例 如 ， 某 商业 银行 预算 如 


图 4-8 所 示 。 


单位 : 万 元 


68 

















m2014 





2015 





2016 







































































血 二 年 汇 





证 












































2014 2015 2016 三 年 汇总 
710 700 700 2110 
110 90 110 310 
230 200 230 660 
50 50 50 150 
1100 1040 1090 3230 


妈 4-8 ”服务 费用 举例 


2. 风险 效益 分 析 
在 系统 建设 过 程 中 ， 面 临 的 风险 包括 : 组 织 风险 、 业 务 变 革 风 险 、 技 术 风 险 和 项 日 管理 
风险 ， 如 图 4-9 所 示 。 


组 织 风险 业务 变革 风险 





图 4-9 系统 建设 过 程 中 可 能 面临 的 风险 


e 组 织 风险 

可 能 出 现 的 风险 包括 企业 未 来 组 织 的 不 确定 性 ， 它 会 影响 业务 的 流程 和 范围 ， 从 而 影响 
系统 的 建设 。 应 对 这 种 风险 的 策略 是 明确 业务 策略 和 发 展 方向 ， 合 理 规划 组 织 机 构 。 

e 业务 变革 风险 

可 能 出 现 的 风险 是 业务 流程 的 调整 有 可 能 影响 岗位 职责 的 变化 。 应 对 这 种 风险 的 策略 包 
括 业务 变革 得 到 企业 高 层 的 支持 ， 提 前 做 好 应 对 的 准备 。 

。 技术 风险 

可 能 出 现 的 风险 是 随 着 技术 不 断 创新 和 发 展 ， 对 技术 的 选择 会 带 来 相应 的 风险 ， 从 而 造 
成 技术 先进 性 和 成 熟 性 难以 平衡 。 为 了 避免 技术 风险 ， 我 们 应 该 选择 成 熟 度 较 高 的 产品 。 

。 项 目 管理 风险 

可 能 出 现 的 风险 是 没有 清晰 的 管理 机 制 和 组 织 ， 造 成 职责 不 清和 进度 延缓 。 应 对 这 种 风 
险 的 策略 是 采用 成 熟 的 项 目 管理 办 法 。 

建设 项 目 效益 分 析 主 要 是 提高 核心 业务 能 力 和 流程 执行 效率 ， 建 立 满足 需求 的 系统 架构 
体系 等 内 容 ， 如 图 4-10 所 示 。 主 要 表现 在 以 下 儿 个 方面 : 

1) 提高 核心 业务 能 力 是 为 了 满足 业务 需求 ， 建 立 高 效 、 灵 活 和 可 扩展 的 系统 ， 提 升 产 
品 加 工 能 力 和 对 外 服务 能 

2) 提高 流程 的 执行 效率 是 为 了 实现 核心 业务 规范 化 管理 和 服务 ， 通 过 对 关键 业务 点 的 
提示 和 控制 ， 提 升 业务 效率 ， 防 范 各 种 风险 。 
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-9- 


建立 满足 需求 的 
系统 架构 体系 






提高 流程 执行 效率 





图 4-10 项 目 效 益 分 析 
3) 建立 满足 需求 的 系统 架构 体系 。 例 如 ,应 用 架构 应 该 满足 业务 前 脆性 和 可 落地 要 
求 ， 实 现 应 用 企业 化 。 数 据 架 构 满 足 灵活 、 高 效 、 可 扩展 、 数 据 共享 和 数据 安全 等 架构 要 
求 。 技 术 架 构 采 用 成 熟 技术 ， 符 合 信息 化 相关 规范 ， 保 证 系统 平稳 过 渡 ， 并 复 用 现 有 资产 。 
4.1.6 任务 分 析 
针对 某 金 融 行业 信息 化 建设 ， 可 以 分 成 以 下 几 个 任务 ， 如 图 4-11 所 示 。 








. 


/ 
数据 处 理 和 








图 4-11 某 金 融 行业 信息 化 建设 的 任务 分 析 








(1) 信息 采集 任务 

信息 采集 任务 主要 是 充实 采集 内 容 ， 优 化 采集 方式 ， 根 据 业务 需求 ， 动 态 地 增加 采集 信 
息 。 例 如 ， 在 个 人 从 款 信息 中 增加 欠 款 发 生 的 日 期 。 同 时 需要 扩大 对 公共 信息 的 采集 ， 包 括 
各 种 的 税务 信息 、 司 法 信息 和 电信 信息 等 。 

(2) 数据 处 理 和 加 工 任务 

数据 处 理 和 加 工 任务 是 建立 数据 处 理 和 快速 加 工 响应 机 制 ， 能 够 将 各 种 新 业务 快速 纳入 
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到 系统 中 ， 提 高 数据 的 自动 化 处 理 能 力 和 快速 加 载 能 力 。 例 如 ， 可 以 将 客户 的 信用 评分 能 
力 、 身 份 验证 、 关 联 查询 、 风 险 预警 和 各 种 的 数据 统计 功能 快速 接 人 到 系统 中 。 


(3) 应 用 
应 用 任务 是 建立 多 样 化 的 产品 交付 方式 ， 如 离线 交付 、 专 网 交付 等 ， 尽 量 做 到 7 x24 对 
外 服务 。 


随 着 大 数据 时 代 的 到 来 ， 数 据 应 用 可 以 产生 更 
大 的 机 遇 和 挑战 。 只 有 更 好 地 利用 数据 ， 才 能 在 未 
来 的 竞争 中 获得 更 大 的 优势 。 一 般 来 说 ， 数 据 的 应 
用 主要 包括 报表 功能 、 统 计 分 析 和 数据 挖掘 三 种 方 报表 功能 数据 控 气 
式 ， 如 图 4-12 所 示 。 

(1) 报表 功能 

报表 功能 是 数据 应 用 的 基础 ， 也 是 最 传统 和 常 
见 的 数据 应 用 。 报 表 是 决策 分 析 的 基础 。 报 表 功 能 
的 完善 、 灵 活 程度 能 够 影响 工作 的 效率 。 图 4-12 数据 的 应 用 

(2) 统计 分 析 

统计 分 析 功 能 是 常见 的 数据 应 用 方式 。 随 着 统计 分 析 工具 的 推广 ， 统 计 分 析 在 很 多 行业 
中 得 到 了 越 来 越 广泛 的 应 用 。 例 如 ， 通 过 假设 检验 或 者 方差 分 析 帮 助 分 析 经 济 运行 的 规律 。 

(3) 数据 挖掘 

数据 挖掘 是 数据 统计 分 析 的 进一步 发 展 ， 是 对 数据 的 深度 应 用 。 

数据 挖 气 起源 于 20 世纪 70 年 代 ， 但 在 最 近 10 年 内 得 到 了 广泛 的 应 用 和 发 展 ， 特 别 是 
在 金融 行业 、 电 信行 业 、 互 联网 行业 等 。 

数据 挖掘 的 目的 是 为 了 发 现 数据 背后 隐藏 的 规律 ， 它 可 以 通过 使 用 模型 来 表达 复杂 的 事 
物 和 现象 。 例 如 ， 通 过 使 用 回归 分 析 、 聚 类 分 析 和 分 类 分 析 等 数据 挖掘 手段 在 银行 业 中 发 现 
事物 的 本 质 和 规律 。 

总 之 ,我 们 可 以 通过 报表 功能 、 统 计 分 析 、 数 据 挖掘 等 技术 手段 利用 数据 和 使 用 数据 ， 
为 决策 者 提供 决策 依据 和 技术 支持 。 


4.2 某 金 融 行业 数据 架构 的 分 布 规划 























数据 分 布 主要 包括 业务 分 布 和 系统 分 布 。 数 据 分 布 可 以 分 析 业 务 和 系统 之 间 各 个 环节 的 
创建 、 修 改 和 删除 关系 ， 同 时 可 以 分 析 应 用 系统 中 数据 结构 和 系统 各 个 模块 之 间 的 关系 。 

其 中 业务 对 数据 的 处 理 主要 包括 数据 的 采集 、 加 工 和 对 外 服务 三 种 类 型 的 业务 处 理 。 因 
此 ， 在 设计 数据 架构 时 ， 根 据 业 务 对 数据 的 处 理 特 点 ， 规 划 设 计 合 理 的 数据 分 布 ， 以 满足 相 
关 业 务 的 需求 。 

在 规划 数据 分 布 时 ， 需 要 考虑 合适 的 技术 方案 来 满足 以 下 需求 : 

1) 明确 不 同位 置 之 间 的 数据 定位 和 数据 流向 。 

2) 保证 对 海量 数据 的 快速 加 载 和 不 同 数据 库 之 间 数 据 的 快速 增 量 迁移 。 

3) 保证 海量 数据 的 快速 产品 加 工 。 

4) 应 该 适应 数据 采集 的 多 样 化 、 产 品 加 工 的 多 样 化 和 对 外 服务 配置 化 等 特点 。 
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5) 可 以 适应 数据 的 纠 错 更 新 机 制 。 
数据 架构 框架 包含 数据 采集 层 、 数 据 加 工 层 和 应 用 服务 层 ， 如 图 4-13 所 示 。 
数据 采集 层 数据 加 工 层 应 用 服务 层 
I eeeegeeseglgeeesmeme 
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归档 数据 
数据 管控 体系 











图 4-13 数据 架构 框架 详细 描述 


下 面 对 数 据 采 集 层 、 数 据 加 工 层 和 应 用 服务 层 进行 详细 描述 。 

(1) 数据 采集 层 

数据 采集 层 主要 包括 数据 源 和 统一 数据 采集 平台 。 统 一 数据 采集 平台 的 目的 是 统一 数据 
采集 ， 包 括 定期 全 量 、 增 量 的 采集 。 

(2) 数据 加 工 层 

数据 加 工 层 包括 数据 处 理 平 台 、 产 品 生产 平台 、 数 据 仓库 、 评 级 系统 、 归 档 数据 及 





























法 


用 。 
数据 处 理 平台 一 般 是 批量 、 实 时 地 对 增 量 数据 或 者 全 量 数据 进行 处 理 ， 这 种 方式 可 以 依 
赖 一 些 主流 的 关系 型 数据 库 和 大 型 平台 来 实现 。 

产品 生产 平台 主要 是 针对 数据 类 的 产品 进行 生产 ， 一 般 要 求 系统 可 以 处 理 海 量 数据 和 复 
杂 的 数据 ， 要 求 高 并 发 和 7 x24 小 时 不 停机 。 这 种 方式 可 以 依赖 于 大 型 的 平台 。 

数据 仓库 以 存储 历史 数据 为 主 ， 用 于 对 历史 数据 的 分 析 ， 文 持 灵活 分 析 和 查询 。 数 据 仓 
库 应 该 有 海量 数据 处 理 能 力 、 线 性 扩展 能 力 和 高 可 用 性 。 

评级 系统 是 金融 行业 的 一 个 应 用 系统 ， 主 要 用 于 对 客户 的 评分 。 

归档 数据 是 对 归档 数据 的 存储 ， 原 则 上 存储 历史 的 原始 数据 。 

应 用 主要 包括 评分 、 分 析 报 表 、 客 户 服务 、 风 险 预 和 警 和 一 些 自 定义 产品 等 内 容 。 

(3) 应 用 服务 层 

应 用 服务 层 包 括 管理 驾驶 舱 、 固 定 报表 、OLAP 分 析 、 数 据 挖掘、 应 用 查询 等 内 容 。 

综 上 所 示 ， 该 数据 架构 框架 基本 满足 了 业务 需求 。 统 一 数据 采集 平台 从 数据 源 中 采集 数 
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据 ， 经 过 数据 处 理 平 台 ， 可 以 实时 、 批 量 地 将 增 量 数据 或 者 全 量 数 据 分 发 到 产品 生产 平台 、 
数据 仓库 、 评 级 系统 中 ， 对 于 一 些 历史 数据 也 可 以 放 到 归档 数据 中 。 最 后 在 数据 加 工 层 对 数 
据 进 行 加 工 处 理 ， 满 足 应 用 的 需求 。 
针对 金融 行业 信息 化 总 体 建设 的 任务 需要 ， 可 以 对 数据 架构 做 进一步 修改 和 优化 ， 如 
图 4-14 所 示 。 
数据 源 内 容 管理 数据 交换 平 数据 临时 区 数据 加 工 
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公共 数据 转换 


图 4-14 ”对 数据 架构 的 修改 和 优化 
下 面 对 各 个 层次 进行 详细 说 明 。 

















(1) 数据 源 
数据 源 主 要 以 结构 化 数据 和 非 结 构 化 数据 为 主 ， 定 义 数据 采集 的 来 源 、 内 容 、 格 式 和 采 
集 方式 等 。 


(2) 内 容 管理 

内 容 管理 主要 为 半 结 构 化 和 非 结构 化 数据 提供 捕获 、 管 理 和 存储 等 方面 的 服务 ， 也 就 是 
非 结构 化 数据 的 结构 化 处 理 。 

(3) 数据 交换 平台 

数据 交换 平台 主要 为 外 部 数据 交换 和 内 部 数据 交换 提供 支持 。 











(4) 数据 仓库 

数据 仓库 是 根据 业务 需求 ， 对 历史 数据 进行 整合 、 轻 度 汇总 和 加 工 ， 提 供 分 析 的 功能 。 
(5) 主 数 据 

主 数据 主要 对 身份 信息 进行 识别 和 整合 。 

(6) 加 载 库 

加 载 库 主要 提供 对 源 数据 进行 校 验 的 功能 。 

(7) 基础 数据 

基础 数据 主要 获取 校 验 通过 的 数据 ， 作 为 后 续 加 工 的 唯一 可 信和 数据 源 。 

(8) 查询 库 


查询 库 主 要 存储 查询 类 应 用 的 信息 。 
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(9) 应 用 

应 用 主要 提供 对 外 查询 服务 。 

未 来 数据 架构 的 主要 内 容 包 括 数 据 源 、 内 容 管理 、 数 据 交 换 、 数 据 仓库 和 应 用 ， 如 
图 4-15 所 示 。 








© y 


图 4-15 未 来 数据 架构 的 主要 内 容 
































(1) 数据 源 


结合 业务 特点 和 数据 特征 ， 对 源 数据 层 进行 规划 ， 同 时 需要 充分 考虑 灵活 性 和 可 扩展 性 
的 要 求 。 如 图 4-16 所 示 ， 数 据 源 层 提 供需 要 的 源 数据 ， 可 以 描述 从 哪里 、 以 什么 样 的 方式 
和 渠道 加 载 到 系统 中 。 采 集 数据 分 为 结构 化 数据 和 非 结 构 化 数据 ， 非 结构 化 数据 主要 来 自 互 
联网 ， 结 构 化 数据 主要 来 自 金 融 机 构 和 公共 部 门 。 
数据 源 

















数据 源 层 提供 需要 的 源 数据 ， 可 以 描述 从 哪里 、 以 什 
入 的 方 式 和 深 道 加载 到 孙 统 中 。 采 集 数据 分 为 结构 
化 数据 和 非 结构 化 数据 ， 非 结构 化 数据 主要 来 自 互联 
网 ， 结 构 化 数据 主要 来 自 金融 机 构 和 公共 部 站 



























































图 4-16 数据 源 的 特点 


(2) 内 容 管 理 

内 容 管理 是 指 对 内 部 多 种 格式 的 信息 资源 进行 组 织 、 分 类 和 管理 的 过 程 。 内 容 管理 作为 
一 种 应 用 软件 ， 管 理 和 访问 各 种 非 结构 化 数据 ， 包 括 各 种 音频 、 视 频 、 图 像 等 信息 。 内 容 管 
理 处 理 的 信息 对 象 比 传统 的 关系 型 数据 库 管 理 系统 处 理 的 数据 范围 更 加 广泛 ， 包 括 文 字 、 多 
媒体 、 网 页 、 广 告 和 文档 等 。 

内 容 管理 重点 解决 非 结 构 化 数据 和 半 结 构 化 数据 的 采集 和 管理 问题 。 然 后 将 这 些 数 据 集 
成 到 信息 系统 中 。 
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(3) 数据 交换 

数据 交换 层 满足 数据 架构 各 个 层次 之 间 的 协作 要 求 ， 承 载 着 外 部 和 内 部 的 数据 交换 。 一 
般 来 说 ， 数 据 交 换 层 包括 数据 抽取 和 订阅 、 质 量 检查 、 数 据 转换 和 数据 加 载 等 几 个 方面 ， 如 
图 4-17 所 示 。 
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抽取 /订阅 
数据 加 载 /发 布 























其 中 抽取 /订阅 是 从 数据 源 层 、 数 据 临 时 区 中 获取 增 量 或 者 全 量 数据 ， 然 后 分 发 到 各 个 
加 工 库 或 者 应 用 库 。 

数据 质量 保证 数据 质量 检查 、 清 洗 后 ， 数 据 可 以 满足 基本 的 质量 要 求 。 

公共 数据 转换 是 经 过 数据 质量 清洗 后 的 数据 进行 业务 和 技术 规则 转换 。 

数据 加 载 / 发 布 将 生成 数据 文件 ， 然 后 加 载 到 数据 库 中 。 

(4) 数据 仓库 

数据 仓库 主要 提供 面向 主题 的 、 集 成 的 、 随 时 间 变 化 的 ， 但 信息 本 身 相对 稳定 的 数据 集 
合 ， 它 主要 用 于 对 决策 分 析 的 支持 。 

根据 业务 要 求 ， 在 数据 架构 规划 中 设置 数据 加 工 层 ， 同 时 在 数据 加 工 层 中 设置 数据 仓 
库 。 数 据 仓库 一 般 以 基础 数据 整合 和 汇总 数据 加 工 为 主 。 

数据 仓库 整合 全 局 的 信息 ， 包 括 基础 数据 层 、 汇 总 加 工 层 和 集 市 层 。 

数据 仓库 中 的 数据 包含 历史 信息 ， 记 录 了 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信息 。 一 
般 来 说 ， 数 据 仓库 的 数据 不 做 删除 和 更 新 处 理 。 通 过 这 些 信 息 ， 可 以 为 企业 的 发 展 历程 和 未 
来 趋势 做 出 分 析 和 预测 。 

数据 仓库 存储 的 粒度 比较 细 ， 存 储 的 历史 周期 长 ， 可 以 在 基于 数据 整合 的 基础 上 创建 各 
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种 应 用 。 
(5) 应 用 
主要 存储 产品 数据 ， 并 对 外 提供 查询 服务 。 


4.3 某 金 融 行业 数据 架构 的 流转 规划 


对 于 数据 架构 的 流转 来 说 ， 主 要 目的 是 降低 数据 元 余 度 、 提 高 数据 一 臻 性， 进而 达到 灵 
高 效 的 目的 。 

”例如 ， 核心 数据 不 反复 分 布 在 不 同 数据 库 中 ， 同 时 允许 合理 的 元 余 存 在 ， 基 础 数据 中 的 
数据 和 数据 仓库 中 基础 数据 层 的 数据 存在 宛 余 ， 但 是 在 结构 和 功能 上 有 较 大 不 同 。 基 础 数据 
是 作为 唯一 可 信 数 据 源 对 后 续 所 有 应 用 供 数 ， 而 数据 仓库 中 基础 数据 层 的 数据 是 为 了 库 内 汇 
总 和 加 工 做 准备 的 ， 如 图 4-18 所 示 。 













增 量 加 载 ， 可 以 根据 产 
品类 型 设置 多 个 库 ， 实 
现 可 扩展 性 


可 以 采用 多 通道 、 并 | | ip 是 











数据 采集 ， 实 现 逻 辑 校 验 ， 通 过 
配置 方式 实现 各 种 校 验 规则 | 





4-18 数据 架构 的 流转 规划 


4.4 某 金 融 行业 数据 加 工 处 理 时 序 规划 


如 图 4-19 所 示 ， 在 数据 临时 存储 区 中 ， 数 据 可 以 多 路 并 行 执行 校 验 和 加 载 ， 然 后 在 基 
础 数据 中 进行 存储 ， 最 后 按照 某 个 时 间 周 期 往 后 进行 增 量 数据 迁移 。 

在 数据 加 工区 中 ， 例 如 凌晨 1 点 ， 可 以 在 数据 加 工区 中 对 前 一 天 的 数据 进行 加 工 和 计 
算 ， 其 中 查询 库 数 据 加 工 、 主 数据 加 工 和 数据 仓库 数据 加 工 可 以 并 行 执 行 ， 最 后 在 早晨 8 点 
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左右 ， 加 工 完 成 后 对 外 提供 服务 。 当 然 ， 我 们 也 可 以 考虑 利用 双 机 备份 机 制 来 对 外 提供 不 间 
断 服务 。 



























































| | | 
1 1 1 
| | 
| | 查询 库 数据 加 工 | 
| | 主 数据 加 工 ! 
' ' 数据 仓库 数据 加 工 ' 
1 ' 
数据 源 校 验 基础 数据 存储 
数据 临时 存储 ' 数据 加 工 ' 应 
Es=== 
第 -天 的 数据 1 第 二 天 
按时 间 周 期 性 的 数据 
的 迁移 


图 4-19 金融 行业 数据 加 工 处 理 时 序 规划 





4.5 有 某 金 融 行 业 数据 架构 的 纠 错 更 正 需求 


4.5.1 数据 架构 纠 错 更 正 的 功能 性 需求 


某 金 融 行业 系统 的 纠 错 更 正 需求 主要 包括 基础 数据 的 数据 纠 错 更 正 需 求 、 查 询 库 的 数据 纠 
错 更 正 需 求 、 主 数据 的 数据 纠 错 更 正 需求 和 数据 仓库 的 数据 纠 错 更 正 需求 。 下 面 分 别 讲 述 : 

1. 基础 数据 的 数据 纠 错 更 正 需 求 

基础 数据 可 以 作为 唯一 可 信 的 数据 源 ， 在 基础 数据 做 的 任何 修改 也 都 会 通过 增 量 的 方式 
同步 到 数据 加 工区 中 进行 加 工 ， 然 后 在 应 用 层 得 到 体现 ， 因 此 ， 尽 量 在 基础 数据 中 进行 纠 错 
更 正 ， 这 样 有 利于 数据 的 一 致 性 。 但 是 为 了 更 好 地 控制 数据 ， 应 该 严格 管理 数据 纠 错 更 正 的 
权限 ， 所 有 的 动作 都 应 该 被 记录 ， 以 备 后 续 查 询 使 用 。 

2. 查询 库 的 数据 纠 错 更 正 需 求 

对 于 查询 库 的 数据 纠 错 更 正 需 求 ， 一 般 是 发 生 在 客户 提出 异议 申请 之 后 ， 由 系统 检查 、 
确认 是 否 是 源 系统 的 错误 ， 最 后 进行 数据 纠正 。 

3. 主 数据 的 数据 纠 错 更 正 需求 

主 数据 包含 身份 整合 信息 ， 针 对 不 同 的 信息 采用 不 同 的 整合 方式 ， 一 般 都 直接 在 主 数据 
中 修改 信息 。 

4. 数据 仓库 的 数据 纠 错 更 正 需 求 

原则 上 ， 数 据 仓 库 不 进行 数据 纠 错 更 正 ， 如 果 确 实 需要 修改 ， 应 该 记录 数据 修改 前 后 的 
值 ， 尽 可 能 保证 数据 的 可 追溯 性 和 审计 的 要 求 ， 同 时 保存 在 线 纠 错 请 求 的 发 起 人 、 发 起 时 
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间 、 原 因 等 信息 。 
4.5.2 非 功能 性 需求 


关于 数据 架构 的 非 功能 性 需求 ， 主 要 包括 以 下 几 


个 方面 ， 如 图 4-20 所 示 。 

1 对 并 发 和 响应 时 间 的 要 求 

我 们 需要 考虑 系统 在 线 纠 错 更 正 请 求 的 数量 是 多 
少 ， 这 种 并 发 量 对 系统 造成 的 压力 是 否 大 ， 而 客户 提 
交 请 求 系统 响应 的 时 间 应 该 维持 在 几 秒 以 内 。 权限 控制 与 

2 数据 可 追溯 性 要 求 外 

当 客 户 提交 在 线 纠 错 更 正 请 求 后 ， 将 更 新 基础 数 
据 库 、 数 据 仓库 、 主 数据 和 查询 库 中 对 应 的 数据 。 同 
时 记录 数据 变化 的 情况 ， 从 而 确保 数据 的 可 追溯 性 。 

3 权限 控制 与 安全 性 要 求 

在 线 纠 错 更 正 属于 风险 较 大 的 操作 ， 可 能 会 对 数据 的 正确 性 、 一 致 性 和 完整 性 产生 影 
响 。 因 此 ， 需要 对 在 线 纠 错 更 正 的 权限 进行 严格 限制 。 


4. 5.3 在 线 纠 错 更 正 的 指导 原则 


对 于 系统 的 在 线 纠 错 更 正 ， 需 要 保证 数据 的 一 致 性 和 完整 性 。 在 线 纠 错 更 正 的 请 求 应 该 
尽 可 能 发 生 在 基础 数据 库 中 ， 因 为 当 更 新 完 基 础 数据 后 ， 再 通过 特殊 的 数据 加 工 迁 移 到 主 数 
据 、 数 据 仓 库 和 查询 库 中 。 

对 于 已 经 加 工 完成 的 数据 进行 在 线 纠 错 更 正 ， 如 果 无 法 通过 修改 基础 数据 中 的 数据 来 实 
现在 线 纠 错 ， 只 能 考虑 在 加 工区 中 修改 数据 。 对 于 所 有 的 在 线 纠 错 更 正 相 关 操 作 ， 必 须 保留 
痕迹 ， 从 而 保证 数据 的 可 追溯 性 。 


4.5.4 数据 查询 


当 系 统 客服 人 员 接 到 客户 的 异议 申请 时 ， 首 先 通 过 查询 库 查询 相关 数据 ， 从 而 确定 客户 
反映 的 问题 是 否 存在 ， 然 后 通过 查询 结果 定位 是 属于 数据 源 的 问题 还 是 数据 加 工 导 致 的 问 
题 。 为 了 避免 数据 泄密 ， 需 要 对 数据 权限 进行 严格 控制 。 

当 客 服部 门 收 到 异议 处 理 请 求 时 ， 需 要 通过 查询 相关 数据 确定 是 数据 加 工 问题 还 是 数据 
源 的 问题 。 当 客服 部 门 或 者 相应 机 构 提 交 数 据 纠 错 更 正 请 求 时 ， 如 果 提 交 的 数据 通过 审核 ， 
那么 系统 将 会 更 新 对 应 的 基础 数据 存储 的 数据 ， 同 时 进行 数据 加 工 和 迁移 任务 的 操作 。 





图 4-20 数据 架构 的 非 功能 性 需求 





4.6 ” 某 金 融 行业 数据 架构 优化 


某 金融 行业 数据 架构 的 优化 主要 包含 以 下 几 个 方面 ， 如 图 4-21 所 示 。 

1) 优化 数据 采集 策略 。 

优化 数据 采集 策略 ， 细 化 数据 分 类 ， 根 据 数据 分 类 制定 不 同 的 采集 周期 和 采集 模式 策 
略 。 统 一 规划 数据 采集 策略 ， 灵 活 配 置 数据 采集 接口 和 调度 策略 等 内 容 。 
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攻 优化 数据 采集 策略 | 


将 数据 采集 、 数 据 加 工 和 对 外 服务 





整合 业务 流程 








匡 建立 数据 质量 管理 机 制 ”| 


图 4-21 某 金 融 行业 数据 架构 的 优化 














例如 ， 将 客户 的 收入 和 个 人 资产 独立 采集 和 存储 ， 用 于 不 同 的 产品 加 工 和 应 用 。 根 据 不 
同 数据 源 业 务 发 生 的 频率 和 周期 ， 采 用 不 同 的 数据 采集 策略 。 可 以 引入 一 些 市 场 化 的 操作 ， 
让 一 些 合作 机 构 辅 助 数 据 采 集 的 工作 ， 扩 大 采集 的 范围 ， 减 少 本 系统 采集 的 压力 ， 同 时 增加 
数据 采集 的 灵活 性 。 

2) 将 数据 采集 、 数 据 加 工 和 对 外 服务 统一 考虑 。 

通过 监控 和 调度 管理 实现 任务 之 间 的 协调 工作 。 统 一 监控 各 生产 加 工 环节 任务 ,根据 立 
值 指标 报警 异常 情况 ， 建 立 针对 事故 、 风 险 的 应 急 处 理 机 制 ， 以 优化 资源 的 使 用 。 

对 于 系统 来 说 ， 主 要 考虑 数据 采集 、 数 据 加 工 和 





对 外 服务 三 大 核心 业务 ， 它 们 是 整个 价值 链 优化 的 基 和 
础 ， 如 图 4-22 所 示 。 
。 数 据 采集 = 





数据 采集 主要 是 建立 稳定 、 高 效 的 数据 传输 链 路 。 


建立 数据 采集 的 应 急 调整 机 制 和 监控 调度 机 制 。 、 
e 产品 加 工 数据 加 工 
产品 加 工 加 强 对 数据 产品 加 工 能 力 的 预测 ， 尽 量 


减少 因为 数据 加 工 的 问题 而 造成 的 对 外 服务 的 影响 。 

。 对 外 服务 

对 外 服务 将 市 场 需求 预测 作为 对 外 服务 策略 的 重 图 4-22 三 大 核心 业务 
要 依据 ， 提 高 服务 的 准确 性 ， 按 照 服务 水 平 信息 ， 优 化 采集 、 加 工 、 服 务 环节 。 

3) 整合 业务 流程 ， 加 强 信息 系统 支撑 ， 尽 量 减 少 手工 干预 工作 ， 提 高 自动 化 程度 和 系 
统 的 总 体 处 理 效率 。 

4) 明确 划分 数据 管理 阶段 ， 同 时 加 强 数据 质量 、 查 询 匹 配 、 数 据 整合 等 关键 环节 能 
力 ， 打 造 核心 竞争 力 。 数 据 处 理工 作 包 括 数据 获取 和 整合 、 数 据 存储 、 对 外 信息 服务 三 个 阶 
段 ， 质 量 管理 、 查 询 匹配 、 数 据 整 合 等 组 件 作为 核心 竞争 能 

5) 从 数据 采集 、 产 品 加 工 到 对 外 服务 的 全 程 数据 质量 管理 ， 优 化 关键 质量 管理 策略 ， 
并 提供 数据 质量 、 数 据 整合 、 测 试 等 工具 和 组 件 作为 公共 基础 组 件 。 

一 般 做 法 是 将 数据 质量 工作 前 移 ， 在 人 库 前 保证 数据 质量 。 可 以 采用 抽样 统计 与 逐条 数 
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据 校 验 相 结合 的 校 验方 式 ， 通 过 数据 抽样 和 统计 的 方法 ， 规 避 系 统 性 数据 错误 ， 统 计 历 史记 
录 ， 作 为 制定 数据 质量 提升 策略 的 依据 。 同 时 ， 将 手工 质量 管控 工作 与 信息 系统 相 结合 ，i 
过 相关 管理 机 构 进行 质量 检查 和 质量 绩效 管理 ， 提 高 数据 质量 。 

6) 建立 数据 质量 管理 机 制 ， 确 保 数 据 质量 达到 “适用 ”的 要 求 ， 并 且 是 “可 管理 的 ”， 
确保 数据 带 来 更 大 的 社会 和 商业 价值 。 

查看 数据 质量 管理 方面 手段 是 否 单一 ， 建 立 数据 质量 跟踪 和 反馈 机 制 ， 明 确 相 关 环 节 部 
门 的 权限 和 职责 。 定 义 数据 质量 ， 并 明确 各 阶段 数据 质量 管理 要 点 ， 量 化 管理 并 制定 相应 激 
励 措施 。 


4.7 ” 某 金 融 行业 数据 架构 案例 描述 

















下 面 分 析 茶 金融 行业 数据 架构 相关 案例 ， 如 图 4-23 所 示 。 
数据 源 。 ”内容 管 理 。 数据 交换 平 数据 临时 区 
























































非 结 构 化 数据 











4-23 某 金 融 行业 数据 架构 相关 案例 


对 于 该 数据 架构 ， 我 们 详细 了 解 一 下 加 载 库 、 基 础 数据 、 主 数据 、 数 据 仓 库 、 数 据 交换 
平台 、 产 品 加 工 流程 、 数 据 架 构 实 施 规划 和 系统 切换 规划 等 内 容 。 


4.7.1 加 载 库 


加 载 库 可 以 作为 系统 的 数据 质量 控制 中 心 ， 是 合格 数据 进入 到 系统 的 唯一 途径 。 加 载 库 
可 以 分 成 数据 缓冲 区 和 数据 加 载 区 。 

缓冲 区 的 目的 是 为 了 数据 交换 而 设 定 的 临时 存储 区 ， 加 载 区 是 存储 贴 数据 源 的 数据 ， 一 
般 只 存储 上 一 期 的 数据 ， 为 后 续 的 逻辑 校 验 做 准备 。 

缓冲 区 数据 和 加 载 区 数据 关联 进行 逻辑 校 验 ， 如 图 4-24 所 示 。 

缓冲 区 的 数据 首先 经 过 格式 校 验 ， 校 验 通过 后 再 和 加 载 区 数据 关联 进行 逻辑 校 验 ， 校 验 
都 通过 的 数据 存储 到 基础 数据 库 中 ， 如 图 4-25 所 示 。 
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二 和 








基础 数据 库 














格式 、 关 联 逻 辑 校 验 > 
图 4-25 格式 、 关 联 逻辑 校 验 

一 般 来 说 ， 数 据 加 载 区 只 存储 最 近 一 期 数据 ， 如 果 是 新 增 数 据 ， 则 直接 插入 到 加 载 区 
中 ， 如 果 是 更 新 数据 ， 则 直接 替换 掉 加 载 区 上 期 的 数据 。 最 后 ， 定 时 地 将 批量 数据 加 载 进 基 
础 数据 库 中 。 
4.7.2 基础 数据 

基础 数据 是 系统 唯一 可 信 的 数据 源 ， 它 主要 存储 校 验 通 过 的 数据 ， 同 时 也 可 以 存储 非 结 
构 化 数据 结构 化 的 内 容 。 存 储 的 期 限 可 以 根据 业务 需求 去 制定 。 基 础 数据 库 的 数据 可 以 到 查 
询 库 、 主 数据 和 数据 仓库 中 ， 如 图 4-26 所 示 。 








基础 数据 库 














图 4-26 基础 数据 
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4.7.3 主 数 据 

主 数据 在 整个 数据 架构 的 作用 就 是 对 身份 信息 的 识别 和 归并 ， 基 于 业务 规则 的 识别 、 合 
并 和 履 盖 原则 ， 实 现 身 份 信息 的 唯一 识别 ， 同 时 增强 信息 的 可 信和 度 。 

身份 信息 可 以 使 用 唯一 号 码 进行 标识 。 然 后 将 加 工 数据 统一 后 ， 再 对 其 他 数据 库 供 数 。 
如 图 4-27 所 示 ， 主 数据 将 加 工 后 的 身份 信息 批量 同步 到 查询 类 应 用 、 数 据 仓库 中 。 





身份 数据 信息 整合 、 身 份 
信息 识别 归并 、 挖 掘 分 析 









































数据 仓库 
询 关上 基础 | | 整合 


图 4-27 主 数 据 
主 数据 相关 技术 包括 主体 数据 的 识别 、 主 体 数据 的 整合 、 主 体 数 据 的 归并 和 主体 数据 关 
系 的 挖掘 ， 如 图 4-28 所 示 。 


. 
主体 数据 的 识别 


主体 数据 的 归并 





图 4-28 主 数据 相关 技术 
下 面 对 主 数据 相关 技术 进行 详细 描述 : 
(1) 主 数 据 的 识别 
可 以 灵活 地 定义 主体 识别 规则 。 例 如 ， 通 过 个 人 姓名 、 证 件 类 型 和 证 件 号 码 识 别 个 人 身 
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份 。 如 果 识 别 规则 复杂 ， 则 匹配 效率 低 。 然 而 ， 如 果 识 别 规则 过 于 简单 ， 则 会 导致 匹配 精度 
不 高 。 

(2) 主 数据 的 整合 

主 数据 的 整合 是 对 信息 唯一 码 的 分 配 ， 在 主体 识别 的 基础 上 ， 对 新 增 主体 信息 分 配 唯一 
码 ， 主 体 唯一 码 与 原 码 比较 后 ， 分 配 唯 一 码 ， 并 且 建 立 唯 一 码 与 原 码 的 关系 。 

(3) 主 数据 的 归并 

主 数据 可 以 灵活 定义 归并 规则 ， 但 首先 应 该 定位 主体 信息 疑似 名 单 ， 进 行 疑似 客户 的 确 
认 。 可 能 需要 业务 人 员 的 确认 。 

(4) 主 数 据 关 系 的 挖掘 

例如 ， 主 数据 关系 的 挖掘 可 以 包括 个 人 与 个 人 关系 的 控 据 、 企 业 与 企业 关系 的 挖掘 、 个 
人 与 企业 关系 的 挖掘 等 内 容 。 


4.7.4 数据 仓库 


数据 仓库 整合 系统 的 全 局 信息 ， 包 括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 。 数 据 仓库 
中 的 数据 包含 历史 数据 ， 它 记录 了 系统 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信息 。 

一 般 来 说 ， 数 据 仓库 不 进行 删除 操作 ，”W 
通过 这 些 历 史 信 息 ， 可 以 对 企业 的 发 展 历程 2 
和 未 来 趋势 做 出 定量 分 析 和 预测 。 

数据 仓库 的 数据 来 源 是 基础 数据 库 、 查 。 攻 
询 库 和 主 数据 中 的 数据 ， 如 图 4-29 所 未。 ”最 

一 般 来 说 ,数据 仓库 的 数据 存储 粒度 较 。 主 数据 
细 ， 存 储 时 间 周 期 较 长 ， 基 础 层 、 汇 总 层 和 
集 市 层 之 间 的 数据 交换 可 以 通过 数据 交换 层 
完成 。 集 市 中 的 数据 主要 是 统计 性 的 ， 对 明 pd 
细 数 据 保存 较 少 。 


4.7.5 数据 交换 平台 
数据 交换 平台 包括 外 部 交换 和 内 部 交换 两 个 部 分 ， 如 图 4-30 所 示 。 
@ ©® 





SSs 
查询 库 























图 4-29 数据 仓库 的 数据 来 源 











图 4-30 数据 交换 平台 


外 部 交换 : 通过 交换 平台 将 外 部 文件 数据 加 载 进 内 部 系统 。 
内 部 交换 : 是 指 系统 内 各 个 数据 库 之 间 的 数据 交换 。 
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例如 : 

1) 校 验 通过 后 的 数据 通过 数据 交换 层 到 基础 数据 库 中 。 

2) 基础 数据 通过 数据 交换 层 到 查询 库 、 主 数据 、 数 据 仓库 中 。 

3) 查询 库 的 产品 数据 通过 数据 交换 层 到 数据 仓库 中 。 

4) 主 数据 库 加 工 后 的 身份 数据 通过 数据 交换 层 到 数据 仓库 中 。 

5) 非 结 构 化 数据 的 元 数据 信息 通过 数据 交换 层 到 基础 数据 库 中 。 

6) 数据 仓库 加 工 后 的 结果 数据 通过 数据 交换 层 到 分 析 类 应 用 中 。 

数据 交换 平台 的 功能 包括 数据 抽取 、 质 量 检查 、 数 据 转换 和 数据 加 载 ， 如 图 4-31 
所 示 。 


. 
数据 抽取 





4-31 数据 交换 平台 的 功能 


。 数据 抽取 功能 

数据 抽取 功能 是 从 数据 源 层 获取 原始 数据 ， 可 以 准 实 时 或 者 实时 地 获取 源 系 统 的 增 量 或 
者 全 量 数据 。 抽 取 的 范围 是 结构 化 或 者 非 结构 化 数据 。 

。 质量 检查 功能 

质量 检查 是 数据 交换 层 的 重要 工作 ， 经 过 数据 质量 的 检查 ， 生 成 满足 质量 要 求 的 数据 
文件 。 

。 数据 转换 功能 

数据 转换 是 对 通过 质量 检查 的 数据 进行 转换 ， 然 后 加 载 到 数据 库 中 ， 可 以 按照 业务 或 者 
技术 规则 进行 转换 。 

。 数据 加 载 功 能 

创建 可 导入 的 文件 ， 通 过 工具 将 数据 批量 导入 到 数据 库 中 。 


4.7.6 产品 加 工 流 程 


为 了 提高 产品 加 工 的 效率 ， 可 以 支持 加 工 的 并 行 处 理 。 在 目标 数据 架构 中 ,产品 的 加 工 
流程 包括 对 查询 类 产品 的 加 工 、 管 理 类 产品 的 加 工 和 挖掘 分 析 类 产品 的 加 工 。 
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产品 的 加 工 流程 如 图 4-32 所 示 ， 详 细 介绍 如 下 。 


增 量 数据 文件 

















增 量 数据 文件 | 数据 
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-二 国 虫 人 






























































图 4-32 产品 的 加 工 流程 


1) 在 加 载 库 中 进行 数据 质量 校 验 ， 包 括 格式 及 逻辑 校 验 。 

2) 基础 数据 导出 增 量 数据 文件 ， 然 后 进行 增 量 数据 的 迁移 。 

3) 对 主 数据 信息 进行 加 工 。 例 如 ， 对 基本 身份 信息 的 整合 、 唯 一 码 的 分 配 、 疑 似 主体 
信息 的 识别 等 内 容 。 

4) 对 数据 仓库 的 数据 进行 加 工 ， 生 成 各 种 分 析 类 产品 。 

5) 对 查询 库 的 数据 进行 加 工 ， 生 成 查询 类 应 用 产品 。 

6) 最 后 ， 对 产品 数据 的 加 工 结果 进行 迁移 。 


4.7.7 数据 架构 实施 规划 


系统 建设 策略 

关于 系统 建设 策略 ， 前 文 已 经 介绍 过 ， 主 要 包括 统一 开发 和 推广 、 快 速 建设 方式 。 

我 们 总 结 一 下 : 项 目 最 好 的 建设 方式 是 抓 住 
项 目的 核心 应 用 ， 对 重要 核心 的 需求 形成 快速 突 
破 。 然 后 在 统一 规划 的 基础 上 建设 基础 平台 ， 统 
一 开发 和 推广 的 建设 方式 和 快速 建设 方式 相 结合 ， 
大 大 缩减 了 项 目 建 设 周 期 。 因 此 ， 可 以 将 整个 项 
目 划分 成 三 个 阶段 ， 包 括 : 系统 建设 、 应 用 推广 、 
业务 提升 ， 如 图 4-33 所 示 。 

(1) 第 一 阶段 : 系统 建设 

遵循 需求 和 总 体 架 构 设 计 的 要 求 ， 完 成 核心 
应 用 的 开发 ， 同 时 搭建 软 硬 件 基 础 平台 。 例 如 ， 














图 4-33 项 目 划 分 的 阶段 
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在 项 目 开 始 阶段 ， 首 先 建设 基础 设施 、 容 灾 系 统 、 数 据 采 集 系 统 、 数 据 处 理 系统 、 产 品 加 工 
系统 、 对 外 服务 系统 。 然 后 ， 在 此 基础 上 可 以 建立 客户 服务 系统 、 数 据 质量 管理 系统 、 管 理 
分 析 系 统 等 。 

(2) 第 二 阶段 : 应 用 推 

选择 试点 ， 试 运行 系统 ， 然 后 按照 推广 计划 ， 逐 步 推广 第 一 阶段 建设 的 核心 系统 。 例 
如 ， 在 此 阶段 可 以 建立 基础 设施 建设 二 期 、 数 据 采 集 系统 二 期 、 产 品 加 工 系统 二 期 、 容 灾 系 
统 建设 二 期 、 对 外 服务 系统 二 期 、 数 据 仓 库 等 ， 同 时 应 该 统一 管理 和 实施 。 

(3) 第 三 阶段 : 业务 提升 

主要 配合 业务 运营 ， 优 化 系统 。 在 总 体 架 构 的 基础 上 ， 完 成 新 增 需求 和 应 用 的 建设 。 同 
时 可 以 拓展 系统 的 数据 采集 、 服 务 对 象 和 产品 的 范围 

在 项 目 建设 时 ， 也 需要 考虑 可 能 存在 的 风险 ， 如 组 织 风险 、 业 务 变 化 风险 、 技 术 风险 和 
管理 风险 等 。 


4.7.8 系统 切换 规划 案例 


系统 切换 规划 的 原则 ， 如 图 4-34 所 示 。 
系统 影响 最 低 原则 

(1) 稳定 过 渡 的 原则 .| 尽 可 能 减 小 对 原 有 系统 的 影响 

系统 推广 和 切换 需要 保证 稳定 过 渡 。 

(2) 系统 影响 最 低 原 则 了 最 小 局 

to © 在 切换 过 程 中 ， 不 能 对 正常 业务 造成 任何 影响 

(3) 风险 最 小 原则 

在 切换 过 程 中 ， 不 能 对 正常 业务 造成 任何 0 
影响 。 

下 面 对 系统 切换 方案 进行 详细 描述 。 

方案 一 概述 

新 系统 可 以 不 支持 一 代数 据 采集 接口 和 查询 服务 接口 。 此 方案 使 得 未 切换 源 系 统 的 数据 
采集 只 能 在 旧 系 统 中 完成 。 对 于 数据 采集 ， 只 能 在 旧 系 统 和 新 系统 中 同时 进行 ， 为 了 保证 数 
据 的 一 致 性 ， 需 要 对 新 旧 系 统 的 数据 进行 双向 同步 ， 直 到 新 系统 推广 完成 ， 旧 系统 始终 需要 
并 行 ， 当 切换 完成 之 后 ， 旧 系统 才 可 下 线 。 

对 于 源 系 统 数据 采集 端 ， 需 要 逐步 完成 新 旧 切 换 ， 这 种 方式 对 于 双向 增 量 同步 实现 难度 
很 大 ， 第 一 次 新 旧 系统 切换 是 将 数据 采集 服务 随 着 新 系统 投产 而 启用 ， 查 询 服 务 依旧 使 用 旧 
系统 ; 第 二 次 新 旧 系 统 切 换 是 将 查询 服务 从 旧 系 统 切 换 到 新 系统 。 

总 结 

新 系统 不 支持 旧 系 统 的 查询 接口 ， 在 新 系统 的 查询 服务 启动 之 前 ， 查 询 服 务 都 在 旧 系 统 
进行 。 在 新 系统 全 部 完成 切换 之 后 ， 查 询 服 务 从 旧 系 统 切换 到 新 系统 。 

方案 一 的 工作 主要 是 对 新 系统 的 接口 开发 和 测试 工作 ， 旧 系统 不 需要 进行 额外 的 接口 开 
发 和 测试 。 为 了 不 停止 对 外 的 查询 服务 ， 旧 系统 必须 保持 全 量 的 数据 ， 会 一 直 并 行 到 新 系统 
全 部 完成 切换 为 止 。 最 难 的 工作 和 技术 就 是 对 新 旧 系 统 的 数据 库 双 向 同步 。 

方案 一 的 工作 流程 如 图 4-35 所 示 。 
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定 长 的 TXT 文件 
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一 代 旧 系统 | 国 国 因 》| 日 系统 查询 服务 






新 旧 系 统 数据 库 双向 -| 


一 代 新 系统 | 国 国 到》 | 新 系统 查询 服务 


图 4-35 方案 一 的 工作 流程 


方案 二 概述 

方案 二 是 在 方案 一 的 基础 上 修改 的 ， 重 点 在 于 对 查询 服务 接口 的 修改 。 新 系统 不 支持 旧 
系统 的 数据 采集 接口 ， 但 是 支持 对 旧 系 统 的 查询 服务 接口 。 新 系统 的 数据 采集 和 对 外 服务 一 
次 性 进行 切换 ， 未 切换 的 数据 在 旧 系 统 中 进行 采集 ,已 切换 的 数据 在 新 系统 中 进行 采集 。 查 
询 服 务 支 持 旧 系 统 ， 同 时 也 支持 新 系统 。 当 新 系统 推广 完成 之 后 ， 旧 系统 可 以 下 线 。 需 要 保 
证 新 系统 是 全 量 数据 。 方 案 二 的 工作 流程 如 图 4-36 所 示 。 


定 长 的 TXT 文 件 
一 代 旧 系统 





























未 切换 的 数据 源 系统 
新 旧 系 统 数 据 库 双 向 -| 














切换 的 源 系 乡 
已 切换 的 数据 源 系 统 支持 新 、 旧 系统 


二 代 新 系统 的 查询 服务 





XML 文件 


= 


图 4-36 方案 二 的 工作 流程 


方案 三 概述 

方案 三 与 方案 一 类 似 ， 新 系统 和 旧 系 统 互相 支持 对 方 的 数据 采集 接口 ， 但 是 新 系统 不 支 
持 旧 系统 的 查询 服务 接口 。 

当 首 次 切换 时 ， 查 询 服 务 使 用 旧 系 统 ， 随 着 切换 的 慢 慢 推广 ， 一 直到 完成 ， 新 系统 的 查 
询 服务 正式 使 用 。 新 旧 系 统 会 一 直 并 行 ， 直 到 上 线 完 成 之 后 。 最 大 的 难点 是 对 数据 一 致 性 的 
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校 验 。 方 案 三 的 工作 流程 如 图 4-37 所 示 。 
定 长 的 TXT 文件 


未 切换 的 数据 源 系统 






一 代 旧 系统 





0 | 旧 示 统 在 询 服务 








已 切换 的 数据 源 系统 全 


i 新 旧 系 统 数 据 库 双 向 同步 
XML 文件 


E> 新 系统 查询 服务 


图 4-37 方案 三 的 工作 流程 


二 代 新 系统 








方案 四 概述 
方案 四 与 方案 二 类 似 ， 新 系统 和 旧 系 统 互相 支持 对 方 的 数据 采集 ， 新 系统 支持 对 旧 系 统 
的 查询 服务 接口 。 采 集 数 据 增 量 双向 加 载 ， 并 行 至 推广 完成 。 难 点 是 对 数据 一 致 性 的 校 验 。 
方案 四 的 工作 流程 如 图 4-38 所 示 。 
定 长 的 TXT 文 件 


= 


未 切换 的 数据 源 系统 

























一 代 旧 系统 





已 切换 的 数据 源 系统 ZN 


1 新 旧 系 统 数据 库 双向 同步 
XML 文 件 


= 支持 新 、 旧 系统 
的 查询 服务 


图 4-38 方案 四 的 工作 流程 


二 代 新 系统 








方案 五 概述 

新 系统 支持 旧 系 统 的 数据 采集 接口 ， 但 是 不 支持 旧 系 统 的 查询 服务 接口 。 对 于 投产 切 
换 ， 数 据 采 集 与 查询 服务 可 以 分 成 两 次 切换 ， 切 换 完成 后 ， 全 部 的 数据 在 新 系统 中 进行 采 
集 。 查 询 服务 在 推广 完成 之 后 再 切换 到 新 系统 中 。 新 旧 系 统 会 一 直 并 行 ， 直 到 推广 结束 。 此 
方案 要 求 新 系统 保持 全 量 数据 。 方 案 五 的 工作 流程 如 图 4-39 所 示 。 
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定 长 的 TXT 文件 


一 代 旧 系统 | 国 国 因 》| 日 系统 查询 服务 


未 切换 的 数据 源 系 统 
起 系统 数据 库 双 向 同步 
XML 文件 


| 新 示 统 在 询 服务 


图 4-39 方案 五 的 工作 流程 










已 切换 的 数据 源 系统 





方案 六 概述 

新 系统 支持 旧 系 统 的 数据 采集 接口 、 查 询 服务 接口 。 新 系统 对 外 服务 一 次 性 切换 完成 。 
在 切换 稳定 后 ， 旧 系统 可 以 选择 下 线 。 此 方案 要 求 旧 系统 保持 全 量 数据 。 方 案 六 的 工作 流程 
如 图 4-40 所 示 。 











定 长 的 TXT 文件 


未 切换 的 数据 源 系统 


1 系统 数据 库 双 向 同步 
XML 文件 


系统 
me 


图 4-40 方案 六 的 工作 流程 












已 切换 的 数据 源 系统 





方案 七 概述 

新 系统 支持 旧 系 统 数据 采集 接口 、 查 询 服 务 接口 。 新 系统 一 次 性 切换 全 部 的 数据 采集 和 
查询 服务 接口 ， 然 后 逐步 推广 。 新 系统 支持 旧 系 统 的 数据 采集 与 服务 接口 ， 服 务 一 次 性 切 
换 ， 无须 新 老 系统 并 行 。 方 案 七 的 工作 流程 如 图 4-41 所 示 。 

但 是 方案 七 需要 验证 新 系统 采集 旧 数 据 的 能 力 ， 包 括 : 验证 新 系统 对 旧 系 统 数据 采集 接 
口 的 支持 能 力 和 验证 新 系统 对 旧 系 统 查询 服务 接口 的 支持 能 力 ， 如 网 4-42 所 示 。 

方案 八 概述 

新 系统 不 支持 旧 系 统 数据 采集 接口 、 查 询 服务 接口 。 新 系统 数据 采集 与 查询 服务 一 次 投 
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定 长 的 TXT 文件 





已 切换 的 数据 源 系统 





二 代 新 系统 
XML 文件 


E> 支持 新 、 旧 系统 
的 查询 服务 


图 4-41 方案 七 的 工作 流程 


验证 新 系统 对 旧 系 统 数据 采集 接口 的 支持 能 力 
| 六 持 新 、 旧 系 


一 代 新 系统 四 聊 | 统 的 查询 服务 


验证 新 系统 对 旧 系 统 查 询 服务 接口 的 支持 能 
图 4-42 方案 七 的 验证 工作 













数据 源 系统 


产 切 换 ， 新 系统 与 旧 系 统 会 一 直 并 行 ， 直 到 推广 结束 ， 旧 系统 才 可 以 择机 下 线 。 方 案 八 的 工 
作 流 程 如 图 4-43 所 示 。 








定 长 的 TXT 文件 


日 


已 切换 的 数据 源 系 统 
一 代 旧 系统 
未 切换 的 数据 源 系统 


新 旧 系 统 数据 库 双 向 同步 


已 切换 的 数据 源 系 统 一 代 新 系统 | 国 本 | 新 系统 查询 服务 










办 | 日 示 统 三 询 服务 





XML 文件 


要 


图 4-43 方案 八 的 工作 流程 
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新 昌 系 统 数据 迁移 的 问题 : 

(1) 分 析 新 系统 需要 补 录 哪些 数据 

在 新 系统 中 ,分 析 数 据 采 集 接口 比 旧 系统 采集 接口 增加 了 哪些 内 容 ， 有 哪些 历史 数据 可 
以 补 录 到 新 系统 中 。 在 新 旧 系 统 切 换 的 时 候 ， 需 要 将 历史 数据 一 次 性 地 提交 到 新 系统 的 数据 
库 中 。 也 可 以 在 系统 切换 前 ， 提 前 将 历史 数据 补 录 到 新 系统 中 。 

(2) 制定 海量 数据 的 迁移 方案 

第 一 种 方式 : 使 用 数据 迁移 程序 进行 迁移 ， 如 图 4-44 所 示 。 首 先 将 源 数据 导出 成 原始 
数据 文件 ; 经 加 工 后 成 为 中 间 数 据 文件 ， 然 后 将 文件 直接 导入 生产 数据 库 中 。 


程序 导出 数据 加 工 
| 历史 库 I ~ 证 | 一 医 -“" 司 


图 4-44 海量 数据 迁移 的 第 一 种 方式 


对 于 海量 数据 的 迁移 时 间 需 要 进行 测试 和 验证 。 
第 二 种 方式 : 使 用 数据 迁移 程序 和 中 间 库 ， 如 图 4-45 所 示 。 可 以 采用 中 间 库 ， 如 果 数 
据 迁 移 时 间 超 出 投产 时 间 窗 口 ， 考 虑 分 批 导 入 的 方式 。 


原始 数据 文件 中 间 数 据 文件 


程序 导出 数据 加 工 
| 历史 库 | 一 | 一 证 | 一 | 中 间 库 
医 -… 司 


图 4-45 海量 数据 迁移 的 第 二 种 方式 



































小 结 


。 一 般 来 说 ， 项 目 阶段 分 成 以 下 几 个 部 分 : 项 目 启动 阶段 ， 现 状 评估 、 高 阶 需 求 分 析 阶 
段 、 架 构 设 计 和 规划 阶段 以 及 实施 规划 和 运 维 阶段 。 

。 在 系统 总 体 规划 过 程 中 ， 主 要 包含 三 个 过 程 : 现状 分 析 和 需求 分 析 阶 段 、 总 体 规划 设 
计 阶 段 和 总 体 架 构 实 施 规划 阶段 。 

。 系统 建设 策略 主要 包含 以 下 几 种 方式 : 统一 开发 、 统 一 推广 ， 快 速 建设 方式 。 

。 项 目 阶 段 的 建设 计划 主要 包含 以 下 几 个 方面 : 项 目 启动 、 需 求 分 析 、 系 统 设计 、 开 发 
和 测试 以 及 项 目 验收 等 。 

。 预算 主要 包含 两 个 方面 的 内 容 : 一 是 对 硬件 、 软 件 平台 、 应 用 软件 和 各 种 服务 的 投资 
和 维护 的 费用 估算 ， 二 是 对 人 工 服务 费用 的 估算 。 
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e 针对 某 金融 行业 信息 化 建设 ， 可 以 分 成 以 下 几 个 任务 : 

(1) 信息 采集 任务 

信息 采集 任务 主要 是 充实 采集 内 容 ， 优 化 采集 方式 ， 根 据 业 务 需求 ， 动 态 地 增加 采集 信 
息 。 例如， 在 个 人 欠 款 信息 中 增加 欠 款 发 生 的 日 期 。 同 时 需要 扩大 对 公共 信息 的 采集 ， 包 括 
各 种 的 税务 信息 、 司 法 信息 和 电信 信息 等 。 

(2) 数据 处 理 和 加 工 任务 

数据 处 理 和 加 工 任务 是 建立 数据 处 理 和 快速 加 工 响应 机 制 ， 能 够 将 各 种 新 业务 快速 纳入 
到 系统 中 ， 提 高 数据 的 自动 化 处 理 和 快速 加 载 能 

例如 ， 可 以 将 客户 的 信用 评分 能 力 、 身 份 验证 、 关 联 查 询 、 风 险 预 警 和 各 种 的 数据 统计 
功能 快速 接 入 到 系统 中 。 














(3) 应 用 
应 用 是 建立 多 样 化 的 产品 交付 方式 ， 如 离线 交付 、 专 网 交付 等 ， 尽 量 做 到 7 x 24 对 外 
服务 。 


。 数据 分 布 主 要 包括 数据 业务 分 布 和 数据 系统 分 布 。 数 据 分 布 可 以 分 析 数 据 业 务 和 业务 
各 个 环节 的 创建 、 修 改 和 删除 关系 ， 同 时 可 以 分 析 数 据 在 应 用 系统 中 的 数据 结构 和 应 
用 系统 各 个 模块 之 间 的 关系 。 

。 在 规划 数据 分 布 时 ， 需 要 考虑 合适 的 技术 方案 来 满足 以 下 需求 : 

1) 明确 不 同位 置 之 间 的 数据 定位 和 数据 流向 。 

2) 保证 对 海量 数据 的 快速 加 载 和 不 同 数据 库 之 间 数 据 的 快速 增 量 迁 移 。 

3) 保证 海量 数据 的 快速 产品 加 工 。 

4) 应 该 适应 数据 采集 的 多 样 化 、 产 品 加 工 的 多 样 化 和 对 外 服务 配置 化 等 特点 。 

5) 可 以 适应 数据 的 纠 错 更 新 机 制 。 

。 对 于 数据 架构 的 流转 来 说 ， 主 要 是 降低 数据 元 余 度 、 提 高 数据 一 致 性 ， 进 而 达到 灵 
活 、 高 效 的 目的 。 

。 某 金 融 行 业 系统 的 纠 错 更 正 需 求 主要 包括 基础 数据 的 数据 纠 错 更 正 需 求 、 查 询 库 的 数 
据 纠 错 更 正 需求 、 主 数据 的 数据 纠 错 更 正 需 求 和 数据 仓库 的 数据 纠 错 更 正 需求 。 

e 基础 数据 可 以 作为 唯一 可 信 数 据 源 ， 在 基础 数据 做 的 任何 修改 也 都 会 通过 增 量 的 方式 

同步 到 数据 加 工区 中 进行 加 工 ， 然 后 在 应 用 层 得 到 体现 ， 因 此 ， 尽 量 在 基础 数据 中 进 

行 纠 错 更 正 ， 这 样 有 利于 数据 的 一 致 性 。 但 是 为 了 更 好 地 控制 数据 ， 应 该 严格 管理 数 

据 纠 错 更 正 的 权限 ， 所 有 的 动作 都 应 该 被 记录 ， 以 备 后 续 查 询 使 用 。 

对 于 查询 库 的 数据 纠 错 更 正 需求 ， 一 般 是 发 生 在 客户 提出 异议 申请 之 后 ， 经 过 系统 确 

认 是 否 是 数据 源 存在 错误 ， 由 源 系 统 在 自己 系统 上 经 过 检查 ， 确 认 是 数据 错误 之 后 ， 

登录 到 本 系统 进行 数据 纠正 。 

主 数据 主要 包含 身份 整合 信息 ， 针 对 不 同 的 信息 采用 不 同 的 整合 方式 ， 一 般 都 直接 在 

主 数据 中 修改 信息 。 

对 于 系统 的 在 线 纠 错 更 正 ， 需 要 保证 数据 的 一 致 性 和 完整 性 。 在 线 纠 错 更 正 的 请 求 应 

该 尽 可 能 发 生 在 基础 数据 库 中 ， 因 为 当 更 新 完 基 础 数据 后 ， 再 通过 特殊 的 数据 加 工 迁 

移 到 主 数据 、 数 据 仓 库 和 查询 库 中 。 对 于 已 经 加 工 完 成 的 数据 进行 在 线 纠 错 更 正 ， 如 

果 无 法 通过 修改 基础 数据 中 的 数据 来 实现 在 线 纠 错 ， 只 能 考虑 在 加 工区 中 修改 数据 。 
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对 于 所 有 的 在 线 纠 错 更 正 相 关 操作 ， 必 须 保 留 痕迹 ， 从 而 保证 数据 的 可 追溯 性 。 

。 当 客 户 提交 在 线 纠 错 更 正 请 求 后 ， 将 更 新 基础 数据 库 、 数 据 仓 库 、 主 数据 和 查询 库 中 

对 应 的 数据 。 同 时 记录 数据 变化 的 情况 ， 从 而 确保 数据 的 可 追溯 性 。 

。 为 了 提高 产品 加 工 的 效率 ， 可 以 支持 加 工 的 并 行 处 理 。 

。 数据 仓库 整合 系统 的 全 局 信息 ， 包 括 基础 层 、 汇 总 层 和 集 市 层 。 数 据 仓库 中 的 数据 包 

含 历史 数据 ， 它 记录 了 系统 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信息 ， 一 般 来 说 ， 数 

据 仓 库 不 做 删除 操作 ， 通 过 这 些 历史 信息 ， 可 以 对 企业 的 发 展 历程 和 未 来 趋势 做 出 定 

量 分 析 和 预测 。 

e 数据 交换 平台 包括 外 部 交换 和 内 部 交换 两 个 部 分 。 外 部 交换 是 指 通过 交换 平台 将 外 部 

文件 数据 加 载 进 内 部 系统 。 内 部 交换 是 指 系统 内 各 个 数据 库 之 间 的 数据 交换 。 

。 菏 金 融 行业 数据 架构 的 优化 主要 包含 以 下 几 个 方面 : 

1) 优化 数据 采集 策略 。 

2) 将 数据 采集 、 数 据 加 工 和 对 外 服务 统一 考虑 。 

3) 整合 业务 流程 ， 加 强 信息 系统 支撑 ， 尽 量 减少 手工 干预 工作 ， 提 高 自动 化 程度 和 系 
统 的 总 体 处 理 效率 。 

4) 明确 划分 数据 管理 阶段 ， 同 时 加 强 数据 质量 、 查 询 匹 配 、 数 据 整 合 等 关键 环节 能 
力 ， 打 造 核心 竞争 力 。 

5) 从 数据 采集 、 产 品 加 工 到 对 外 服务 的 全 程 数据 质量 管理 ， 优 化 关键 质量 管理 策略 ， 
并 提供 数据 质量 、 数 据 整 合 、 测 试 等 工具 和 组 件 作 为 公共 基础 组 件 。 

6) 建立 数据 质量 管理 机 制 ， 确 保 数据 质量 达到 “适用 ”的 要 求 ， 并 且 是 “可 管理 的 ”， 
确保 数据 带 来 更 大 的 社会 和 商业 价值 。 

。 随 着 大 数据 时 代 的 到 来 ， 数 据 应 用 可 以 产生 更 大 的 机 遇 和 挑战 。 只 有 更 好 地 利用 数 

据 ， 才 能 在 未 来 的 竞争 中 获得 更 大 的 优势 。 一 般 来 说 ， 数 据 的 应 用 主要 包括 : 报表 功 

能 、 统 计 分 析 和 数据 挖掘 三 种 方式 。 

(1) 报表 功能 

报表 功能 是 数据 应 用 的 基础 ， 是 较为 传统 和 常见 的 数据 应 用 。 报 表 是 决策 分 析 的 基础 。 
报表 功能 的 完善 、 灵 活 程 度 能 够 影响 工作 的 效率 。 

(2) 统计 分 析 功 能 

统计 分 析 功能 是 常见 的 数据 应 用 方式 。 随 着 统计 分 析 工 具 的 推广 ， 统 计 分 析 在 很 多 行业 
中 得 到 了 越 来 越 广泛 的 应 用 。 例 如 ， 通 过 假设 检验 或 者 方差 分 析 帮 助 分 析 经 济 运行 的 规律 。 

(3) 数据 挖掘 功能 

数据 挖掘 是 数据 统计 分 析 的 进一步 发 展 ， 是 对 数据 的 深度 应 用 。 

数据 挖掘 虽然 起 源 于 20 世纪 70 年 代 ， 但 在 最 近 10 年 内 得 到 了 广泛 应 用 和 发 展 ， 特 别 
是 被 金融 行业 、 互 联网 行业 广泛 使 用 。 
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第 5 曹 ”大 数据 染 构 与 实践 


本 章 目 标 
通过 前 儿童 的 学 习 ， 我 们 已 经 理解 了 数据 架构 的 工作 方法 和 指导 原则 ， 同 时 也 了 解 了 金 
融 行 业 数 据 架构 的 相关 案例 ， 还 学 习 了 数据 架构 的 流转 、 加 工 的 处 理 时 序 、 数 据 纠 错 方案 介 
绍 、 数 据 架 构 的 优化 和 数据 架构 实施 规划 等 内 容 。 

但 是 ， 随 着 数据 采集 的 范围 不 断 扩 大 ， 一 些 例如 文档 、 视 频 等 半 结 构 化 和 非 结构 化 的 数 
据 逐 渐 成 为 主要 的 数据 源 ， 可 以 这 样 说 ，80% 的 数据 可 能 都 来 自 于 非 结 构 化 数据 ， 如 图 像 、 
音频 、 微 博 、 网 页 、 电 子 邮件 等 。 商 业 银 行 一 直 饱 受 着 这 些 大 量 的 非 结 构 化 数据 没有 更 好 地 
创造 业务 价值 的 困扰 ， 我 们 可 以 把 大 数据 视 为 挑战 。 

同时 对 于 商业 银行 来 将， 大 数据 更 是 机 遇 ， 客 户 在 不 断 与 银行 的 交易 过 程 中 ， 创 造 出 多 
种 形式 的 数据 ， 这 也 为 银行 实时 或 者 准 实时 地 分 析 数 据 提 供 了 便利 ， 同 时 可 以 对 客户 进行 针 
对 性 的 人 营销。 因此， 本 章 我 们 将 重点 介绍 大 数据 。 

学 习 本 章 后 ， 读 者 将 掌握 

。 大 数据 的 建设 背景 

e 大 数据 面临 的 挑战 和 重要 性 

。 大 数据 的 定义 和 特点 

。 大 数据 下 的 数据 架构 

。 大 数据 分 析 平 台 基 础 框架 

。 大 数据 技术 如 何 落 地 

。 相关 生产 厂商 大 数据 技术 介绍 

。 大 数据 与 云 计算 

。 大 数据 和 传统 商业 智能 分 析 

e 大 数据 在 金融 行业 的 应 用 

。 大 数据 在 其 他 行业 的 应 用 






























































5.1 大 数据 概述 


5.1.1 大 数据 的 建设 背景 


“大 数据 的 真实 价值 就 像 漂浮 在 海洋 中 的 冰川 ， 第 一 眼 人 们 往往 只 看 到 冰山 一 角 ， 而 绝 
大 部 分 都 隐藏 在 表面 之 下 ， 数 据 总 是 从 最 不 可 能 的 地 方 被 提取 出 来 ”这 段 关 于 大 数据 的 精 
彩 论述 来 自 维克托 . 迈 尔 - 侈 恩 伯 格 所 著 的 《大 数据 时 代 》 一 书 。 

经 过 许多 年 的 发 展 ， 目 前 的 信息 积累 已 经 到 了 一 个 新 的 阶段 ， 它 比 以 往 有 着 更 多 的 信 
息 ， 数 据 的 增长 速度 也 在 不 断 加 快 。 

据 IBM 公司 预测 ， 到 2020 年 ， 全 世界 产生 的 数据 规模 将 达到 目前 数据 量 的 44 倍 ， 在 这 
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些 数 据 中 ， 只 有 1% ~5% 的 数据 是 结构 化 数据 ， 这 意味 着 非 结构 化 数据 和 半 结 构 化 数据 将 
占据 绝 大 部 分 。 因 此 ， 人 们 创造 出 了 大 数据 的 概念 。 

在 理解 大 数据 之 前 ， 首 先 应 该 理解 什么 是 数据 信息 。 数 据 信 息 好 像 是 地 球 上 的 空气 ， 无 
处 不 在 、 四 处 漂移 ， 如 图 5-1 所 示 。 同 时 这 些 信息 又 是 看 不 见 、 摸 不 着 、 无 孔 不 入 的 。 这 
些 信 息 可 以 包括 文字 、 图 像 、 声 音 和 影像 等 。 信 息 实质 上 是 人 类 思想 外 化 的 一 种 方式 。 
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数据 信息 


空气 
而 一 
则 人 
= 


图 5-1 数据 信息 好 像 是 地 球 上 的 空气 








那么 ， 什 么 是 大 数据 呢 ? 

大 数据 是 指 巨 量 的 信息 ， 规 模 巨大 ， 已 经 无 法 用 常规 的 软件 工具 在 短 时 间 内 进行 存储 和 
管理 。 大 数据 的 主要 功能 就 是 预测 ， 可 以 将 算法 应 用 到 海量 的 数据 中 ， 预 测 事件 发 生 的 可 能 
性 。 但 是 我 们 不 要 拘泥 于 大 数据 的 概念 。 

目前 来 说 ， 大 数据 多 数 仍然 停留 在 概念 上 ， 真 正大 数据 落地 的 成 功 案例 寥寥 无 几 。 我 们 
应 该 去 探寻 大 数据 的 真正 内 涵 和 价值 。 如 何 分 析 和 使 用 大 数据 才 是 本 章 的 重点 。 

例如 ， 商 业 银 行 拥有 大 量 的 客户 信息 和 交易 信息 ， 特 别 是 客户 在 互联 网 上 的 每 一 次 点 击 
和 评论 ， 都 是 大 数据 的 数据 来 源 。 通 过 对 这 些 数据 的 分 析 ， 洞 悉 客 户 的 潜在 和 真实 需求 。 实 
质 上 我 们 每 天 都 在 创造 着 海量 的 数据 ， 数 据 在 “包围 ”我 们 ， 我 们 正在 进入 “大 数据 ” 
时 代 。 

大 数据 包括 什么 数据 呢 ? 

例如 ， 交 通 和 天 气 预报 的 数据 、 人 们 在 社交 网 络 上 的 信息 、 购 物 信息 ， 以 及 各 种 视频 、 
音频 、 短 信 等 ， 均 可 视 为 大 数据 。 

一 般 将 2012 年 视 为 大 数据 时 代 的 元 年 。 很 多 行业 经 过 多 年 的 数据 积累 ， 已 经 具备 了 利 
用 大 数据 的 挖 据 分 析 创造 价值 的 能 力 。 对 于 金融 行业 来 说 ， 它 们 每 天 都 处 理 千 万 量 级 的 交易 
数据 ， 在 银行 卡 中 也 保存 了 大 量 的 收入 和 支出 信息 。 进 入 大 数据 时 代 后 ， 如 何 更 好 地 利用 大 
数据 创造 财富 是 不 可 回避 的 话题 。 很 多 银行 可 以 根据 对 客户 的 深入 了 解 ， 为 客户 提供 多 样 化 
和 个 性 化 的 服务 。 同 时 还 可 以 针对 相关 热点 、 各 种 犯罪 行为 进行 预测 。 特 别 是 在 国外 已 经 形 
成 了 多 渠道 的 客户 分 析 、 天 气 预 测 预警 分 析 和 交通 堵塞 预警 分 析 等 应 用 。 

在 互联 网 上 ， 我们 每 天 都 会 留 下 大 量 的 浏览 网 页 的 痕迹 。 互 联网 技术 很 像 人 的 神经 系 
统 ， 可 以 通过 感官 获取 信息 。 大 数据 可 以 视 为 人 的 大 脑 中 枢 ， 各 种 信息 集成 到 大 脑 中 枢 ， 然 
后 对 数据 进行 整合 、 集 成 和 挖 据 。 人 举例 来 说 ， 在 社交 网 站 上 ， 记 录 了 我 们 和 朋友 之 问 的 交往 
信息 。 因 此 ， 我 们 应 该 做 好 对 大 数据 的 管理 和 利用 工作 。 对 于 不 同 的 行业 来 说 ， 大 数据 都 意 
味 着 巨大 的 商业 机 会 ， 它 可 以 帮助 我 们 提高 客户 的 忠诚 度 ， 增 强 客户 的 体验 感 。 所 以 说 ， 对 
于 这 些 数 据 的 收集 和 分 析 已 经 成 为 提升 企业 品牌 形象 的 手段 之 一 。 

实质 上 ， 大 数据 在 金融 、 互 联网 的 应 用 非常 广泛 ， 这 些 企业 或 商业 银行 在 日 常 运营 过 程 
中 产生 了 大 量 的 数据 ， 尤 其 在 人 口 众多 的 国家 ， 大 数据 的 应 用 更 为 广泛 ， 通过 这 种 挖 气 和 利 
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用 大 数据 的 能 力 ， 可 以 大 大 提高 服务 的 水 平 。 其 实 大 数据 为 ES 
市 场 提供 了 各 种 机 会 , 创造 出 了 巨大 的 商业 价值 。 同 时 大 数 旺 节 ss 而 全 
据 可 以 帮助 各 个 企业 找到 适合 自己 的 发 展 模式 和 客户 群体 ，: 
强化 自身 的 特色 。 

传统 的 数据 分 析 思 维 是 要 求 数据 准确 无 误 ， 数 据 关系 清 部 和 
晰 。 但 是 大 数据 的 分 析 思 维 是 接受 数据 的 复杂 人 性， 单个 数 据 二 专人 
的 重要 性 不 高 ， 主 要 关注 事物 之 间 的 关联 关系 。 当 我 们 完成 
对 关联 关系 分 析 之 后 ， 就 可 以 研究 更 深层 次 的 因果 关系 ， 找 
出 背后 的 原因 。 例 如 ， 将 啤酒 和 尿布 摆 放 在 一 起 ， 蛋 扑 和 飓风 用 品 摆 放 在 一 起 ; 通过 了 解 人 
们 生活 上 的 喜好 ， 分 析 患 某 种 疾病 的 概率 ; 利用 人 们 的 社交 数据 ， 分 析 个 人 的 偿还 意愿 和 偿 
还 能 力 。 

对 于 商业 银行 来 说 ， 为 了 保证 在 金融 市 场 的 竞争 地 位 ， 将 数据 转化 为 可 以 洞察 的 信息 和 
知识 ， 推 动 业务 的 发 展 ， 提 升 管理 的 效率 。 通 过 大 数据 分 析 平台 ， 接 入 客户 的 社交 网 络 ， 终 
端 媒介 产生 的 各 种 非 结构 化 数据 ， 构 建 客 户 的 全 方位 视图 ， 获 取 客 户 的 反馈 信息 和 真正 需 
求 ， 才 能 对 银行 产品 进行 合理 的 规划 和 设置 。 

大 数据 分 析 可 以 帮助 银行 内 部 加 强 管理 ， 增 强 透明 度 ， 优 化 各 种 业务 流程 和 工作 效率 。 
提高 银行 系统 交易 的 性 能 ， 减 小 运营 和 管理 的 压力 。 

大 数据 分 析 还 可 以 帮助 银行 了 解 客 户 的 风险 信息 ， 建 立 完善 的 风险 管控 体系 。 另外， 可 
以 及 时 地 获取 客户 的 反馈 信息 ， 对 客户 需求 进行 深入 分 析 ， 对 银行 产品 进行 合理 设置 。 同 时 
构建 客户 的 全 方位 视图 。 

例如 ， 根 据 客户 的 偏好 、 年 龄 、 收 入 、 地 域 、 历 史 购 买 水 平 、 兴 趣 广度 ， 构 建 客户 的 全 
方位 视图 ， 了 解 客户 最 真实 的 信息 。 在 此 基础 上 ， 对 客户 进行 细 分 和 风险 评估 ， 从 而 进行 有 
针对 性 的 营销 ， 如 图 5-3 所 示 。 
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图 5-2 大 数据 的 应 用 非常 广泛 












































客户 全 方位 视图 客户 信誉 风险 评 


\ 
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可 | 获取 新 客户 | 


| 获取 新 客户 








图 5-3 针对 性 的 营销 

同时 可 以 制定 云 计 算 、 物 联网 等 规划 ， 特 别 是 云 计 算 、 物 联网 、 社 交 媒 体 为 大 数据 提供 
了 丰富 的 数据 来 源 。 随 着 移动 终端 技术 的 应 用 ， 特 别 是 数据 挖掘 技术 的 发 展 ， 已 经 彻底 改变 
了 客户 的 消费 模式 。 如 果 从 数据 的 角度 来 看 ， 我 们 其 实 已 经 进入 到 了 大 数据 的 智能 化 时 代 。 
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我 们 总 结 一 下 国内 大 数据 的 建设 背景 : 

国内 大 数据 应 用 的 基本 现状 较为 复杂 ， 目 的 是 为 了 追求 大 数据 技术 而 进行 各 种 大 数据 项 
目的 建设 ， 这 样 可 能 会 导致 很 多 企业 “ 掉 进 ”以 技术 为 导向 的 误区 。 

大 数据 的 项 目 必 须 有 明确 的 业务 需求 ， 用 商业 思维 来 推动 大 数据 的 建设 ， 只 有 这 样 ， 大 
数据 的 价值 才能 充分 体现 出 来 。 


5.1.2 大 数据 面临 的 挑战 和 机 遇 


1. 在 大 数据 时 代 ， 我 们 面临 的 挑战 

(1) 企业 或 者 商业 银行 将 数据 的 重要 性 提升 一 个 层次 

首先 要 求 企业 或 者 商业 银行 将 数据 的 重要 性 提升 一 个 层次 ， 对 于 数据 的 应 用 已 经 不 仅仅 
是 业务 经 营 ， 而 是 已 经 扩展 到 客户 服务 和 营销 领域 中 ， 特 别 是 可 以 通过 大 数据 的 应 用 ， 预 测 
未 来 业务 发 展 的 方向 ， 这 对 于 数据 驱动 业务 提出 了 挑战 。 

(2) 大 数据 管理 上 的 成 本 大 大 提高 

基于 大 数据 的 分 析 可 以 让 企业 高 层 的 经 营 决策 更 具有 客观 性 ， 但 是 也 导致 了 大 数据 管理 
上 的 成 本 大 大 提高 。 

(3) 产品 创新 不 足 

在 大 数据 时 代 ， 数 据 不 仅仅 是 企业 日 常 经 营 活 动 中 的 记录 ， 而 是 一 种 资产 ， 目 前 来 说 ， 
依赖 数据 标准 体系 ， 以 及 数据 架构 、 数 据 仓 库 等 手段 进行 产品 的 管理 和 应 用 。 但 是 在 产品 创 
新 上 仍然 不 足 。 

(4) 数据 整合 和 数据 质量 管理 的 难度 很 大 

对 于 大 数据 来 说 ， 数 据 整合 和 数据 质量 管理 的 难度 是 非常 大 的 。 为 了 保证 数据 的 一 至 
性 ， 应 该 运用 合适 的 技术 和 管理 手段 去 保障 大 数据 的 应 用 。 

(5) 一 些 企业 和 银行 在 数据 利用 上 有 一 定 的 局 限 性 

在 大 数据 时 代 ， 国 内 的 一 些 企业 和 银行 在 数据 利用 上 有 一 定 的 局 限 性 ,特别 是 商业 银 
行 ， 很 少 有 对 网 点 的 监测 数据 进行 利用 的 ， 导 致 数据 的 应 用 局 限 在 特定 的 用 途 和 场景 中 。 在 
国外 很 多 机 构 中 ， 可 以 将 各 种 非 结 构 化 数据 ， 如 影像 和 视频 文件 ， 转 化 成 对 用 户 的 行为 
分 析 。 

(6) 应 用 与 理论 研究 的 成 本 很 高 

从 技术 上 来 说 ， 大 数据 的 应 用 离 不 开 Hadoop 、 云 计算 。 这 也 增加 了 应 用 与 理论 研究 
的 成 本 。 

(7) 业务 需求 和 技术 之 间 的 协调 

大 数据 意味 着 更 大 的 机 遇 ， 拥 有 巨大 的 应 用 价值 ， 企 业 的 全 技术 部 门 希望 业务 部 门 提 
出 大 数据 具体 的 分 析 需 求 ， 业 务 部 门 希望 IT 技术 部 门 针 对 大 数据 提出 分 析 建 议 。 只 有 协调 
好 业务 需求 和 技术 之 间 的 关系 ， 才 能 发 挥 大 数据 真正 的 作用 。 

(8) 人 才 方 面 储备 不 足 

大 数据 面临 着 人 才 方 面 储 备 不 足 的 问题 。 大 数据 需要 企业 具备 既 有 IT 技术 ， 又 对 业务 
十 分 熟悉 的 复合 型 人 才 。 

举例 来 说 ， 茶 银行 的 发 卡 量 迅 速 增长 ， 随 着 业务 迅猛 发 展 ， 数 据 也 呈 线 性 增长 。 面 对 着 
传统 的 商业 智能 分 析 ， 旧 的 系统 架构 无 法 支撑 大 数据 的 快速 增长 和 灵活 分 析 ， 无 法 实现 秒 级 
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营销 和 精准 营销 。 同 时 大 数据 分 析 面 临 着 人 才 缺 失 、 数 据 共 ee 
然 大 数据 面临 着 各 种 挑战 ， 但 是 大 数据 分 析 也 带 来 了 巨大 的 经 济 利益 。 据 全 球 权威 的 咨询 公 
司 Gartner 统计 ，2012 年 和 2013 年 大 数据 分 别 带动 了 280 di 340 亿美 元 左右 的 开支 
出 ， 按 照 此 速度 的 增长 ，2016 年 全 球 在 大 数据 上 的 总 花费 可 能 会 达到 2320 亿美 元 。 

2. 大 数据 为 各 行 各 业 带 来 了 巨大 的 经 济 利益 

2011 年 ， 大 数据 为 欧美 部 分 产业 带 来 的 收益 如 表 5$-1 所 示 。 





表 5-1 大 数据 带 来 的 经 济 利益 























国医 产 虽 人 刍 ， 美国 制造 业 的 产品 美国 零售 业 欧洲 的 公共 全 球 个 人 定位 
美国 医疗 保健 业 。 | 。 开发 和 组 装 环节 的 净利 润 管理 部 站 服务 供应 商 
带 来 3000 亿 节省 一 半 增长 了 60% 节省 了 2500 亿 增加 了 1000 亿 
美元 的 价值 的 成 本 支出 ” 欧元 的 支出 美元 的 收入 





对 于 中 国企 业 来 说 ， 大 数据 技术 的 研发 和 投入 相对 较 少 ， 目 前 很 多 企业 没有 利用 好 大 数 
据 。 大 数据 的 发 展 对 于 我 们 的 启示 ( 见 图 5-4) 是 





EE > 3 
必须 把 握 好 大 数据 技术 ， “企业 制定 新 的 大 数据 人 才 战 略 ， 培 养 洞察 分 析 的 能 力 ， 以 
推进 企业 的 转型 创新 以 价值 体系 激励 员工 个 性 化 服务 赢得 客户 





图 $-4 大 数据 的 发 展 对 于 我 们 的 启示 


1) 必须 把 握 好 大 数据 技术 ， 推 进 企业 的 转型 创新 。 
2) 需要 企业 制定 新 的 大 数据 人 才 战 略 ， 以 价值 体系 激励 员工 。 
3) 培养 洞察 分 析 的 能 力 ， 以 个 性 化 服务 去 赢得 客户 。 


5.1.3 大 数据 的 定义 和 特点 


虽然 目前 大 数据 没有 明确 的 定义 ， 但 是 我 们 每 天 都 在 产生 海量 的 数据 ， 数 据 将 我 们 
“包围 ”起 来 ,我 们 正在 进入 到 “大 数据 时 代 ”。 根 据 Gartner 的 定义 ， 大 数据 的 特征 具体 涵 
盖 了 称 为 4V 的 内 容 : 数据 量 大 (Volume) 、 实 时 性 强 (Velocity) 、 商 业 价 值 (Value) 、 数 
据 多 样 化 (Variety) ， 如 图 5-5 所 示 。 

对 大 数据 关注 也 是 因为 它 蕴 藏 巨大 的 商业 价值 。 在 有 些 资 料 和 文档 中 ， 将 大 数据 的 特征 
定义 为 3V 特性 ， 包 括 数据 量 大 、 数 据 多 样 化 以 及 数据 产生 频率 、 更 新 频率 高 。 在 这 里 我 们 
主要 讨论 大 数据 的 4V 特性 

数据 量 大 : 例如 ， 互联 网 、 物 联 网 每 天 都 在 产生 大 量 的 数据 ， 数 据 量 持续 以 前 所 未 有 的 

度 增 加 。 数 据 量 大 是 大 数据 相关 的 重要 特征 之 一 。 

实时 性 强 : 主要 是 指数 据 产 生 的 速度 快 ， 数 据 变化 的 频 度 可 以 到 毫秒 级 。 举 例 来 说 ， 我 
们 每 天 都 通过 传感器 或 者 监控 视频 产生 新 的 数据 ， 数 据 以 比 从 前 更 快 的 速度 产生 、 和 获取 和 分 
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数据 量 大 〈Volume) 实时 性 强 (Valocity) 


4 
大 数据 的 4V 特 性 


商业 价值 (Value) 数据 多 样 化 (Varivety) 








图 5-5 大 数据 的 4V 特性 


























析 。 特 别 是 订单 、 微 博 、 监 探视 频 、 传 感 器 、 支 付 等 每 时 每 刻 都 在 不 停 地 产生 数据 。 

数据 多 样 化 : 多 样 化 是 指数 据 类 型 的 复杂 性 和 数据 种 类 的 繁多 ， 用 来 描述 不 同类 型 的 数 
据 和 数据 源 。 随 着 传感器 和 一 些 智能 设备 的 发 展 ， 数 据 呈 现 了 爆炸 性 的 增长 态势 ， 包 括 如 电 
子 表 格 、 声 音 、 图 片 、 视 频 、 文 本 、 微 博 、 传 感 器 数据 、 点 击 流 、 日 志文 件 、 手 机 呼叫 、 地 
图 GPS 等 内 容 。 

商业 价值 : 通过 对 大 数据 的 挖掘 和 分 析 ， 可 以 发 掘 出 巨大 的 商业 价值 。 

我 们 总 结 来 说 ， 大 数据 的 定义 就 是 通过 快速 采集 、 挖 气 和 分 析 ， 从 大 数据 量 、 多 样 化 的 
数据 中 获取 价值 。 形 象 地 说 ， 大 数据 就 是 沙里 淘金 的 过 程 。 

对 于 传统 的 数据 仓库 技术 和 大 数据 处 理 ， 它 们 之 间 最 大 的 区 别 就 是 数据 仓库 更 多 地 是 对 
过 去 事物 的 分 析 ， 而 大 数据 主要 分 析 我 们 即将 面 对 的 问题 ， 也 就 是 预测 和 分 析 未 来 的 情况 ， 
具有 更 高 的 价值 。 

对 于 大 数据 来 说 ， 有 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 三 种 类 型 。 

1) 结构 化 数据 : 主要 存在 于 关系 型 数据 库 ， 在 过 去 几 十 年 里 一 直 是 主流 的 应 用 。 

2) 半 结 构 化 数据 : 包括 类 似 于 电子 邮件 、 文 字 处 理 文件 以 及 网 上 新 闻 等 内 容 。 

3) 非 结构 化 数据 : 包括 社交 网 络 、 物 联网 、 移 动 计算 和 各 种 传感器 产生 的 各 种 信息 ， 
可 以 有 音频 、 视 频 和 图 片 等 内 容 。 目 前 超过 80% 的 数据 属于 非 结构 化 数据 。 

大 数据 对 于 系统 的 需求 主要 包含 了 高 性 能 、 高 存储 、 可 扩展 和 低 延 迟 等 几 个 特性 。 高 性 
能 是 指 可 以 高 并 发 地 对 海量 数据 进行 读 写 ， 同 时 依靠 并 行 处 理 ， 快 速 响 应 查询 、 分 析 。 高 存 
储 是 指 对 海量 数据 的 存储 。 可 扩展 是 支持 可 扩展 性 。 低 延迟 是 指 能 够 快速 响应 。 

下 面 详 细 介 绍 大 数据 的 几 个 特点 : 

(1) 数据 量 大 

大 数据 应 该 有 多 大 呢 ? 

举例 来 说 ，1999 年 ， 美 国 沃尔玛 公司 的 数据 仓库 容量 是 100 TB，2012 年 ，Facebook 
天 的 数据 量 超过 5$00TB。 目 前 ， 互 联网 上 一 天 的 内 容 就 可 以 刻 满 1. 68 亿 张 左右 的 DVD， 发 
出 的 社区 帖子 在 200 万 个 以 上 。 

截止 2012 年 ， 数 据 量 已 经 从 TB 级 跃升 到 PB 级 、EB 级 其 至 ZB 级 。2008 年 全 球 产 生 的 
数据 量 为 0. 49ZB，2009 年 产生 的 数据 量 达 0.8ZB ，2010 年 产生 的 数据 量 是 1.2ZB ，2011 年 
的 数据 量 已 经 达到 1. 82ZB。 有 目前 全 世界 数据 的 年 增长 量 达 到 50% 左右 。 又 如 ，2000 年 美国 
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新 墨西哥 州 数字 巡天 望远镜 启用 几 周 后 ， 搜 集 的 数据 量 就 已 经 超过 了 天 文学 历史 上 的 数据 总 
和 。 这 一 切 都 意味 着 每 两 年 全 世界 的 数据 总 量 就 会 增加 一 倍 。 

据 IJBM 公司 2012 年 研究 报告 ， 在 整个 人 类 文明 产生 的 全 部 数据 中 ， 有 大 约 90% 的 数据 
是 过 去 两 年 内 产生 的 。 到 2020 年 ， 全 世界 产生 的 数据 量 可 能 会 达到 今天 的 44 倍 左右 。 

(2) 实时 性 强 

大 数据 作为 感知 世界 的 “仪表 盘 ”， 它 的 增长 速度 很 快 ， 数据 变化 与 处 理 的 频 度 可 以 到 
训 秒 级 ， 例 如 各 种 订单 、 支 付 、 监 控 等 ， 每 天 不 停 地 产生 着 数据 ， 同 时 对 海量 数据 进行 及 时 
分 析 。 对 于 某 些 应 用 来 说 ， 要 求 在 几 秒 钟 之 内 得 出 管 案 ， 否 则 就 错过 了 最 佳 时 机 。 这 种 实时 
性 强 的 特点 也 是 区 别 于 传统 数据 仓库 和 商业 智能 技术 的 关键 特征 之 一 。 

实时 性 强 的 原因 是 数据 创建 的 快速 性 。 目 前 数据 是 以 传统 系统 不 可 能 达到 的 速度 在 获 
取 、 产 生 和 分 析 。 例 如 ， 各 种 的 股票 实时 分 析 、 实 时 动态 的 传 感 数据 、 各 种 的 交通 路 况 信 
息 、 每 一 秒 中 淘宝 平均 成 交 178 笔 订单 等 。 这 种 数据 产生 的 速度 ， 已 经 完全 超 乎 了 人 们 的 
想象 





























(3) 商业 价值 A er 
从 秆 和 度 全 大 并 所 的 一 个 类 开 竺 在 。 况 如 海 全 的 寺 国人 


程 ， 虽然 大 多 数 都 是 沙子 ， 但 是 这 些 沙子 中 仍然 存在 着 宝 SB 
贵 的 黄金 ， 我 们 需要 做 的 就 是 将 大 多 数 的 沙 粒 去 除 和 清洗 六 
掉 ， 将 黄金 提取 出 来 ， 如 图 5-6 所 示 。 同 样 对 于 大 数据 来 ts 
说 ， 多 数 的 数据 是 低 价值 的 ， 例 如 影响 天 气 因素 的 数据 很 
多 , 但 是 每 一 条 单独 的 信息 都 是 价值 很 低 的 ， 只 有 将 这 些 
信息 汇总 和 综合 到 一 起 ， 才 能 具备 对 天 气 预测 的 能 力 。 人 

(4) 数据 多 样 化 

对 于 大 数据 来 说 ， 数 据 种 类 繁多 ，80% 以 上 的 数据 来 自 于 半 结 构 化 数据 和 非 结 构 化 数 
据 ， 如 文档 、 视 频 、 电 子 邮 件 等 。 

随 着 传感器 、 智 能 设备 技术 的 发 展 ， 数 据 的 类 型 呈现 多 样 化 的 态势 ， 包 括 文本 、 微 博 、 
音频 、 视 频 、 传 感 器 数据 、 日 志文 件 、 手 机 呼叫 、 地 震 勘探 、 气 象 云图、 卫星 遥感 、 物 联 
网 、 环 保 监 测 、 和 与 情 监控 、 地 图 GPS 和 各 种 的 点 击 流 等 。 将 这 些 不 同类 型 的 数据 进行 交叉 
分 析 ， 是 大 数据 的 核心 技术 之 一 。 特 别 是 语义 分 析 和 各 种 地 理 位 置信 息 技术 都 会 在 大 数据 时 
代 得 到 广泛 应 用 。 


5.1.4 大 数据 下 的 数据 架构 


分 析 前 一 前 的 数据 架构 规划 图 ， 其 中 在 数据 临时 区 中 有 非 结 构 化 数据 一 项 ， 如 图 5-7 
所 示 。 

如 何 处 理 非 结 构 化 数据 呢 ? 如 图 5-8 所 示 。 

首先 可 以 使 用 “网 络 息 虫 ” 手 段 收 集 非 结构 化 的 数据 ， 在 Hadoop 平台 中 建立 非 结构 化 
信息 的 标签 、 摘 要 、 索 引 、 日 志 、 内 容 等 ， 然 后 提取 结构 化 的 元 数据 信息 ， 如 类 别 、 摘 要 等 
内 容 ， 最 后 与 基础 数据 中 的 结构 化 数据 进行 整合 。 

对 于 流 数据 来 说 ， 它 强调 的 是 实时 处 理 与 分 析 ， 而 不 是 数据 存储 ， 所 以 只 在 内 存 中 进行 
处 理 ， 不 落 在 具体 的 磁盘 中 。 随 着 时 间 的 流动 ， 它 只 对 一 段 时 间 内 的 数据 进行 处 理 。 例 如 ， 
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图 分 析 
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非 结构 化 数据 
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图 5-8 非 结构 化 数据 的 处 理 流程 





它 把 银行 交易 系统 的 日 志 信 息 实 时 地 放 到 流 平台 当中 ， 进 行 反 欺诈 的 实时 监测 ， 流 计算 一 般 
可 以 在 几 秒 钟 之 内 对 海量 数据 中 的 异常 行为 进行 预测 和 分 析 。 

总 之 ,对 于 基础 数据 来 说 ， 它 存储 的 都 是 有 用 的 信息 ， 类 似 于 存储 的 都 是 “黄金 ”。 
Hadoop 平台 存储 的 是 从 网 络 中 收集 来 的 沙子 ， 我 们 的 目的 就 是 将 沙子 里 的 黄金 筛选 出 来 。 
非 结 构 化 数据 通过 网 络 爬 虫 等 手段 把 数据 放 入 到 Hadoop 平台 中 ， 再 转化 成 结构 化 数据 进行 
分 析 。 

大 数据 的 一 个 重要 应 用 就 是 舆情 分 析 ， 利 用 网 上 收集 的 信息 ， 如 正 而 、 负 面 的 信息 ， 分 
析 人 们 的 情感 和 进行 预警 分 析 。 和 与 情 分 析 包括 企业 的 声誉 分 析 、 品 牌 分 析 、 服 务 质量 分 析 、 
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阮 争 产品 分 析 、 市 场 动 态 跟踪 等 内 容 。 
随 着 业务 的 扩展 ， 用 户 应 该 对 大 数据 进行 数据 架构 规划 ， 如 图 5-9 所 示 。 















































基础 数据 数据 仓库 
结构 化 数据 
让 | | | | 
全 
用 KS 
结构 化 3 
FE ia 内 容 管理 Hadoop 平 台 
| 查询 类 
三 应 用 库 
| | 





图 5-9 大 数据 的 数据 架构 规划 


大 数据 的 数据 架构 规划 可 以 采用 Hadoop 技术 ,通过 与 结构 化 数据 的 关联 ， 进 一 步 拓展 
对 非 结 构 化 数据 的 处 理 ， 其 中 数据 源 包括 结构 化 数据 、 半 结构 化 数据 、 非 结构 化 数据 ， 特 别 
是 非 结 构 化 数据 和 半 结 构 化 数据 通过 网 络 爬 虫 的 方式 收集 信息 ， 经 过 内 容 管理 平台 的 处 理 ， 
将 非 结 构 化 数据 、 半 结构 化 数据 结构 化 处 理 ， 其 中 可 以 将 内 容 管理 平台 处 理 得 出 的 非 结构 化 
数据 的 元 数据 信息 存放 到 基础 数据 存储 中 。 

对 于 Hadoop 平台 来 说 ， 它 是 基于 HDFS 或 Hbase 存放 非 结构 化 / 半 结 构 化 数据 。 对 于 应 
用 来 说 , 它 是 基于 结构 化 数据 、 半 结构 化 数据 、 非 结构 化 数据 进行 综合 分 析 。 

对 于 我 们 熟知 的 流 数据 ， 具 有 哪些 特性 呢 ? 如 图 5-10 所 示 。 










“管道 式 ”数据 处 理 易于 管理 ， 易 于 扩展 
六 
人 海量 数据 的 支持 
并 生计 算 | ”全 通 动态 分 析 


支持 多 种 数据 接口 





map 
低 成 本 硬件 资源 | 
EB 高 速 数据 传输 ， 分 布 式 执行 
支持 结构 化 数据 、 半 结构 
和 非 结构 化 数据 类 型 


图 $-10 流 数据 特性 


流 数 据 具有 “管道 式 ” 的 数据 处 理 方式 ， 易 于 管理 、 易 于 扩展 ， 支 持 并 行 计算 和 多 种 
数据 接口 ， 以 及 各 种 低 成 本 硬件 资源 。 同 时 支持 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 
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类 型 ， 也 支持 高 速 数 据 传输 和 低 延 迟 动态 分 析 等 。 
流 分 析 的 主要 过 程 如 图 5-11 所 示 。 


非 结构 化 数据 


ee | 汉 
充 计 算 动 态 分 分 结果 
半 结 构 化 数据 i 析 实时 a 


图 5-11 流 分 析 的 主要 过 程 








流 数 据 有 哪些 作用 ? 
流 数据 可 以 保障 数据 处 理 的 实时 性 ， 提 高 数据 分 析 和 决策 的 实时 性 ， 同 时 实现 数据 挖 
气 、 分 析 和 展现 的 有 效 融 合 ， 降 低 延 迟 性 。 








大 数据 的 处 理 流程 

大 数据 的 处 理 流程 主要 包括 大 数据 的 采集 、 对 数据 的 统计 分 析 和 对 数据 的 挖 据 等 三 
阶段 。 

(1) 大 数据 的 采集 

通过 数据 库 接收 来 自 客户 端的 数据 ， 同 时 进行 查询 和 处 理 。 例 如 ，Oracle 、MySQL、 


HBase 和 MongoDB 等 ， 这 些 产 品 有 各 自 的 特点 。 

(2) 对 数据 的 统计 分 析 

对 于 繁杂 、 粗 糙 的 、 庞 大 的 数据 来 说 ， 一 旦 经 过 提炼 和 加 工 ， 便 可 能 带 来 巨大 的 经 济 效 
aa 
多 。 包含 的 产品 包括 Hadoop 、Oracle Exadata， 可 以 做 离线 分 析 和 实时 分 析 。 

(3) 对 数据 的 控 掘 

对 查询 的 数据 进行 挖掘 分 析 ， 满 足 高 级 的 数据 分 析 ， 但 涉及 的 算法 复杂 ， 数 据 量 
巨大 。 

银行 每 天 都 在 处 理 千 万 量 级 的 交易 ， 它 记录 了 我 们 每 一 笔 的 收入 和 支出 情况 ， 包 括 资金 
的 汇 人 和 汇 出 情况 。 在 未 来 ， 数 据 将 以 40% 的 速度 快速 增长 ， 大 数据 为 银行 带 来 的 价值 是 
不 可 估量 的 。 

商业 银行 可 以 分 析 客户 使 用 网 银 的 习惯 ,将 最 常用 的 功能 展示 在 登录 界面 上 ， 省 去 了 用 
户 在 菜单 中 跳 转 所 花费 的 时 间 。 同 样 ， 我 们 也 可 以 基于 对 数据 的 采集 和 识别 ， 评 估 信 用 卡 申 
请 人 提交 的 信息 和 证 明 材 料 ， 包 括 其 他 信用 卡 发 行商 提供 的 申请 人 交易 信息 和 还 款 信息 。 一 
些 营销 专家 和 数据 分 析 专 家 可 以 借助 数据 挖掘 工具 ， 对 用 户 的 信息 进行 提炼 和 分 析 ， 然 后 基 
于 对 海量 数据 的 挖掘 ， 进 行 风险 控制 和 用 户 营 销 。 


5.1.5 大 数据 分 析 平 台 基 础 框架 


大 数据 分 析 平 台 主 要 包括 大 数据 基础 平台 、 平 台 组 织 团队 、 数 据 治理 和 应 用 系统 等 。 
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(1) 大 数据 基础 平台 

在 统一 调度 下 ， 整 合 各 类 数据 ， 以 支撑 应 用 。 

(2) 平台 组 织 团队 

平台 组 织 团队 主要 包括 大 数据 需求 分 析 、 平 台 建 设 和 运 维 等 组 织 和 团队 。 

(3) 数据 管控 

建立 数据 标准 管理 、 数 据 质量 管理 、 元 数据 管理 和 数据 生命 周期 管理 机 制 ， 为 基础 平台 
提供 保障 。 

(4) 应 用 系统 

建设 各 类 数据 应 用 系统 ， 发 挥 大 数据 的 价值 。 


5.1.6 大 数据 技术 如 何 落地 


很 多 企业 都 知道 大 数据 应 用 的 重要 性 ， 但 是 不 清楚 如 何 更 好 地 利用 大 数据 ， 很 多 企业 在 
大 数据 应 用 时 最 大 的 难题 就 是 如 何 保证 大 数据 的 落地 。 下 面 介绍 大 数据 如 何 落地 ， 如 


图 5-12 所 示 。 
首先 大 数据 应 该 “从 小 做 起 ”， 寻 找 
EE 合适 的 业务 场景 | 
[| 大 数据 的 核心 应 由 业务 来 驱动 | 


考虑 大 数据 落地 的 关键 因素 


























图 $-12 如何 保 证 大 数据 的 落地 


(1) 首先 大 数据 应 该 “从 小 做 起 ”， 寻 找 合适 的 业务 场景 

企业 应 该 避免 缺乏 具体 且 可 测量 的 相关 应 用 ， 对 企业 面临 的 问题 和 各 种 业务 需求 进行 深 
入 分 析 ， 理 解 企业 最 迫切 的 需求 是 什么 ， 从 哪里 人 手 最 容易 产生 效果 。 

(2) 大 数据 的 核心 应 由 业务 来 驱动 

对 于 企业 来 说 ， 大 数据 的 核心 应 由 业务 来 驱动 。 特 别 是 跨行 业 的 业务 场景 ， 如 数据 探 
索 、 风 险 管理 、 反 欺诈 等 。 具 体 的 行业 主要 包括 医疗 、 零 售 、 商 业 银 行 等 ,它们 都 有 自己 独 
特 的 业务 需求 ， 如 基于 地 理 位 置 的 精准 客户 营销 。 

(3) 考虑 大 数据 落地 的 关键 因素 

大 数据 落地 的 关键 因素 包括 : 如 何 实时 获取 非 结 构 化 数据 ， 如 何 组 织 和 集成 大 数据 ， 如 
何 使 用 工具 和 技术 分 析 大 数据 ， 如 何 为 企业 提供 实时 的 、 共 享 的 、 全 面 的 业务 决策 分 析 。 




















5.2 大 数据 相关 技术 概述 


大 数据 相关 的 技术 主要 包括 : 云 计算 、 物 联网 、 分 析 工 具 、 社 交工 具 、 移 动 计算 等 ， 如 
图 5-13 所 示 。 
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移动 计算 &y 交工 天 
图 5-13 大 数据 相关 的 技术 


其 中 ， 云 计算 技术 是 为 大 数据 时 代 进 行 的 技术 准备 ， 它 可 以 突破 边界 存储 技术 。 而 物 联 
网 技术 主要 是 证 明 世 界 是 联系 的 ， 而 我 们 现在 火热 的 智 莫 城市 就 是 利用 物 联 网 技术 实现 的 ， 
将 来 还 会 出 现 智慧 乡村 、 智 慧 社 区 和 智慧 家 庭 ， 如 网 5-14 所 示 。 














nt : 
图 5-14 大 数据 相关 的 应 用 

使 用 大 数据 技术 的 目的 是 为 了 让 我 们 的 生活 变 得 更 智能 化 、 更 美好 。IT 技术 的 终极 目 
的 就 是 为 了 实现 智慧 地 球 。 其 中 移动 计算 技术 是 为 了 传递 信息 ,使 得 人 们 获得 大 幅度 的 信息 
自由 。 而 社交 工具 可 以 为 客户 提供 方便 快捷 的 服务 ， 帮 助 企 业 开 展 全 方位 的 营销 。 


5.2.1 相关 生产 厂商 大 数据 技术 简介 


大 数据 技术 相关 厂商 包括 IBM 公司 、 微 软 公 司 、EMC 公司 和 甲骨 文公 司 等 ， 如 图 5-15 
所 示 。 

1. IBM 公司 相关 技术 

IBM 公司 提供 的 大 数据 服务 主要 包括 : 数据 分 析 、 文 本 分 析 、 监 测 和 各 类 商业 服务 。 其 
中 在 一 些 大 数据 产品 中 ， 比 较 新 的 产品 是 IBM InfoSphere BigInsights， 它 是 基于 开源 的 
Hadoop 技术 ， 目 的 是 从 大 量 的 数据 中 提取 相关 的 信息 。 它 为 金融 等 行业 制定 了 大 数据 的 解 
决 方案 。IBM 公司 一 直 致 力 于 对 大 数据 、 信 息 流 和 结构 化 数据 的 研究 。 

在 短 短 几 年 时 间 内 ，IBM 公司 投入 大 量 的 资金 进行 并 购 和 研究 。 例 如 ，2009 年 收购 了 
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图 5-15 大 数据 技术 相关 厂商 


数据 分 析 和 统计 软件 提供 商 SPSS，2010 年 收购 了 数据 库 分 析 供 应 商 Netezza 公司 等 。 
下 面 分 析 一 下 该 公司 产品 具有 哪些 特点 ， 如 图 5-16 所 示 。 
批量 、 实 时 的 加 载 处 理 能 


存储 和 处 理 结构 化 
结果 数据 


© 


9 2 
GD 引入 数据 安全 机 制 


到 
图 5-16 IBM 公司 相关 产品 具有 的 特点 
(1) 优化 对 海量 数据 的 处 理 
基于 Hadoop 技术 ， 实 现 对 海量 数据 的 分 析 ， 包 括 对 大 数据 的 存储 和 分 析 。 
(2) 批量 、 实 时 的 加 载 处 理 能 
基于 Hadoop 技术 ， 实 现 对 结构 化 数据 、 非 结构 化 数据 批量 和 实时 地 加 载 处 理 。 
(3) 存储 和 处 理 结构 化 结果 数据 


可 以 存储 和 处 理 结构 化 结果 数据 。 其 中 内 置 的 文本 语义 分 析 和 预测 组 件 可 以 实现 对 非 结 


构 化 数据 的 结构 化 处 理 。 
(4) 引入 数据 安全 机 制 


引入 专业 的 数据 安全 机 制 ， 对 数据 进行 有 效 的 审计 和 保护 ， 使 得 数据 处 理 更 加 快速 、 可 


靠 、 安 全 和 稳定 。 
(5) 缩短 开发 周期 


该 产品 可 以 让 开发 人 员 能 够 关注 业务 逻辑 ， 而 不 是 技术 细节 的 实现 ， 大 大 降低 了 开发 的 





复杂 性 ， 缩 短 了 开发 周期 ， 屏 蔽 了 MapReduce 的 实现 细节 。 
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2. 微软 公司 相关 技术 

微软 公司 提供 的 Windows HPC Server 2008 是 一 种 基于 Windows Server 技术 的 高 性 能 计算 
解决 方案 。 同 时 微软 公司 也 开发 了 并 行 处 理 技术 ， 向 Windows HPC Server 的 用 户 提供 处 理 大 
数据 的 工具 。 特 别 是 与 惠普 公司 合作 开发 了 一 系列 能 够 提升 决策 速度 的 设备 。 

3. EMC 公司 相关 技术 

对 于 EMC 公司 ， 大 数据 解决 方案 涉及 多 达 几 十 个 产品 。 这 些 大 数据 解决 方案 可 以 有 效 
使 用 来 自 不 同 数据 源 的 数据 ， 包 括 网 页 、 监 控 系 统 和 传感器 的 信息 。 

例如 ，EMC Greenplum 的 设备 ， 通 过 大 规模 并 行 处 理 (MPP) 架构 去 解决 大 数据 相关 的 
问题 。 

4. 甲骨 文公 司 相 关 技 术 

甲骨 文公 司 为 大 数据 提供 了 多 种 软 便 件 方案 ， 同 时 在 大 数据 的 市 场 上 提供 了 多 种 核心 产 
品 。 例 如 ，Oracle 大 数据 机 与 Oracle Exadata 数据 库 云 服务 器 、Oracle Exalogic 中 间 件 云 服 务 
器 一 起 组 成 了 广泛 和 集成 的 产品 系列 。 

甲骨 文公 司 面 向 大 数据 的 解决 方案 主要 包括 : 数据 的 捕获 、 组 织 、 分 析 和 决策 ， 如 
图 5-17 所 示 。 
































图 5-17 甲骨 文公 司 面向 大 数据 的 解决 方案 


5.2.2 ”大 数据 与 云 计算 


对 于 云 计算 来 说 ， 相 当 于 提供 一 个 快捷 的 海量 数据 处 理 的 平台 ， 它 为 大 数据 提供 了 访 
问 、 管 理 的 渠道 和 场所 。 云 计算 本 质 上 就 是 利用 数据 人 处理 技术 实现 企业 的 各 种 业务 模式 。 例 
如 ,企业 的 经 营 数 据 、 银 行 的 交易 信息 ， 互 联网 中 的 交互 信息 ， 以 及 物流 行业 中 的 商品 及 物 
流 信息 ， 都 可 以 利用 云 计算 技术 进行 存储 、 计 算 和 访问 。 大 数据 和 云 计算 等 信息 技术 为 非 结 
构 化 数据 管理 提供 了 支撑 ， 对 于 企业 来 说 ， 决 策 者 将 脱离 经 验 和 直觉 ， 更 加 倾向 基于 大 数据 
分 析 做 出 决策 。 

举例 来 说 ， 如 果 把 商业 智能 转移 到 云 计算 平台 上 ， 可 以 在 很 大 程度 上 提高 商业 智能 的 运 
行 效率 和 数据 分 析 能 力 。 特 别 是 金融 行业 ， 已 经 明确 提出 了 “ 云 + 大 数据 ”的 战略 ， 如 
图 5-18 所 示 。 我 们 可 以 把 云 计 算 当 做 基础 设施 建设 ， 而 大 数据 作为 资产 ， 数 据 挖掘 是 实现 
价值 的 手段 之 一 ， 预 测 分 析 是 要 达到 的 目的 。 
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云 计算 当做 基础 设施 建设 Ee 大 数据 作为 资产 


到 a 


数据 挖掘 是 实现 价值 的 手段 之 一 。 生 区 和 预测 分 析 是 要 达到 的 目的 















图 5-18 “ 云 + 大 数据 ”的 战略 


从 技术 创新 的 角度 来 说 ， 大 数据 的 处 理 技术 应 该 增强 安全 性 、 高 可 用 性 ， 包 括 对 大 数据 
的 解密 、 加 密 、 动 态 口 令 认证 等 内 容 。 在 业务 创新 上 ， 应 该 提供 更 深层 次 的 挖掘 ， 有 效 地 提 
升 业务 能 力 ， 为 大 数据 提供 广泛 的 管理 平台 。 

大 数据 时 代 下 的 超大 数据 量 ， 包 括 占 到 一 半 以 上 的 半 结 构 化 和 非 结 构 化 数据 ， 已 经 远 远 
超出 了 传统 数据 库 的 管理 能 力 ， 大 数据 技术 可 以 帮助 人 们 存储 和 管理 大 量 的 数据 。 可 以 从 低 
价值 、 高 复杂 度 的 数据 中 提取 有 用 的 价值 ， 特 别 是 相关 的 产品 和 技术 不 断 涌现 。 从 本 质 上 来 
说 ， 大 数据 也 是 数据 ， 依 然 离 不 开 对 数据 的 存储 、 检 索 和 管理 ， 如 挖掘 分 析 等 。 我 们 可 以 利 
用 大 数据 技术 和 云 计 算 ， 改 善 和 提高 各 个 行业 的 经 营 模式 。 

关于 大 数据 和 云 计算 的 处 理 技术 ， 主 要 包括 以 下 内 容 : 

(1) 大 数据 和 云 计 算 共 同 改变 商业 运营 模式 

大 数据 和 云 计 算 共 同 改变 着 企业 的 商业 运营 模式 ， 在 目前 社会 中 ， 充 斥 着 各 种 海量 数 
据 ， 如 博客 、 微 博 、 邮 件 、 视 频 、 音 频 、 文 档 等 非 结 构 化 数据 ， 利 用 大 数据 和 云 计算 技术 将 
任务 分 布 在 资源 池上 ， 满足 对 大 数据 的 计算 和 存储 需求 。 

大 数据 和 云 计 算 的 结合 满足 低 成 本 和 硬件、 软件 的 要 求 ， 同 时 能 够 处 理 各 种 类 型 的 海量 数 
据 ， 正 在 悄悄 改变 着 商业 运营 模式 。 

(2) 关于 大 数据 和 云 计算 的 存储 和 管理 

云 计算 对 关系 型 数据 库 产生 了 巨大 的 影响 。 它 可 以 提高 对 海量 数据 的 并 行 处 理 能 力 和 实 
时 分 析 能 力 ， 同 时 提供 在 线 分 析 处 理 和 在 线 事务 处 理 的 能 力 ， 也 可 以 满足 大 数据 环境 下 的 业 
务 需求 。 通 过 大 数据 技术 和 云 计算 的 结合 ， 除 了 降低 建设 大 型 数据 仓库 和 软 硬 件 设备 的 成 
本 ， 也 大 大 减轻 了 运营 、 运 维和 推广 的 压力 。 通 过 云 计 算 和 大 数据 技术 进行 海量 数据 的 统 
计 、 分 析 、 预 测 处 理 ， 可 以 促进 传统 商业 智能 系统 的 发 展 ， 快 速 适应 商业 模式 的 变化 。 

例如 ， 云 计算 可 以 满足 对 海量 数据 的 处 理 ， 能 够 处 理 PB 级 的 数据 量 。 同 时 可 以 简单 部 
署 ， 快 速 响应 ,减少 磁盘 10 时 间 ， 降 低 建 设 、 运 营 成 本 ,特别 是 大 幅度 地 降低 了 硬件 成 本 、 
软件 成 本 和 人 力 成 本 。 


5.2.3 大 数据 和 传统 商业 智能 分 析 


大 数据 分 析 和 传统 商业 智能 分 析 在 内 容 、 分 析 方 法 和 各 种 时 效 性 要 求 上 都 有 很 大 不 同 ， 
传统 数据 仓库 平台 已 经 很 难 支 持 所 有 的 分 析 应 用 ， 需 要 开发 各 种 标准 接口 ， 支 持 MPP 架构 、 
内 存 计算 和 Hadoop 技术 等 。 只 有 构建 混合 型 的 大 数据 云 平 台 ， 才 能 够 支持 传统 的 商业 智能 
和 大 数据 分 析 。 

传统 商业 智能 分 析 主 要 是 面向 内 部 的 结构 化 数据 ， 依 赖 数据 仓库 ， 以 报表 查询 和 挖掘 分 
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析 为 主 。 大 数据 分 析 包 含 结构 化 、 半 结构 化 和 非 结构 化 的 数据 ， 一 般 数据 量 都 在 TB 级 以 
上 ， 主 要 以 挖掘 分 析 、 实 时 预测 为 主 。 

特别 是 主要 的 商业 智能 供应 商都 宣称 对 大 数据 技术 的 支持 ， 或 者 在 一 些 解决 方案 中 使 用 
了 大 数据 技术 ， 大 数据 可 以 作为 传统 数据 库 、 数 据 仓 库 的 扩展 。 它 们 是 相互 促进 的 关系 ， 
而 不 存在 互相 取代 的 问题 。 因 此 ， 为 了 满足 未 来 商业 智能 的 发 展 ， 应 该 将 大 数据 技术 和 商业 
智能 技术 结合 起 来 。 











5.3 大 数据 的 应 用 情况 


近 几 十 年 ， 随 着 计算 机 技术 的 发 展 ， 信 息 已 经 积累 到 了 一 定 程度 ， 它 比 历史 上 任何 一 段 
时 期 充斥 着 的 信息 都 多 ， 而 且 数 据 的 增长 已 经 达到 了 前 所 未 有 的 速度 。 对 于 中 国企 业 来 说 ， 
应 该 利用 大 数据 ， 将 传统 模式 转变 成 以 数据 服务 为 核心 的 商业 模式 。 

大 数据 在 现代 社会 应 用 非常 广泛 。 例 如 ， 在 电子 商务 中 ， 每 天 可 以 访问 1 亿 次 ， 每 年 可 以 由 
10 亿 人 访问 ， 并 且 进 行 网 络 交易 。 对 于 保险 业 来 说 ， 可 以 进行 大 量 的 图 片上 传 工 作 和 索赔 分 析 
工作 ， 每 天 可 以 有 100 万 次 。 例 如 ， 可 以 为 客户 提供 在 线 透明 分 析 ， 对 于 2000 万 辆 汽车 来 说 ， 
每 天 大 约 有 10 亿 条 同步 记录 。 对 于 医疗 卫生 业 来 说 ， 每 天 可 以 有 2000 万 次 的 监视 。 

大 数据 的 应 用 还 包括 很 多 方面 ， 如 数据 的 可 视 化 技术 ， 可 以 更 清晰 和 准确 地 展示 多 维 数 
据 ， 反 映 趋势 变化 等 。 同 时 可 以 提供 更 快 、 更 便宜 的 预测 分 析 。 

大 数据 应 用 的 行业 如 图 5-19 所 示 ， 主 要 包括 金融 服务 业 、 数 据 媒体 、 交 通 运输 、 司 法 
执法 和 零售 等 行业 。 








图 5-19 大 数据 应 用 的 行业 


对 于 金融 服务 业 来 说 ， 大 数据 的 应 用 主要 包括 : 金融 欺诈 检测 、 反 洗钱 等 。 可 以 跨 多 个 
实时 信息 流 关 联 复杂 的 风险 分 析 ， 并 且 得 到 实时 响应 ， 每 天 可 以 增加 10TB 的 数据 ， 甚 至 更 
多 。 还 可 以 全 方位 分 析 客 户 视图 。 

下 面 分 析 一 下 随 着 互联 网 金融 时 代 的 到 来 ， 对 商业 银行 造成 了 哪些 冲击 。 主 要 表现 在 以 
下 几 个 方面 : 

1) 传统 的 存 贷款 业务 受到 很 大 的 压力 ， 因 为 互联 网 金融 有 着 强大 的 技术 创新 能 力 ， 导 
致 金融 脱 媒 的 现象 越 来 越 严重 。 

2) 长 期 以 来 ， 传 统 的 商业 银行 一 直 依赖 利息 ， 创 新 的 动力 不 足 ， 同 时 机 构 元 余 ， 变 革 
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3) 互联 网 金融 已 经 成 为 我 国 金融 服务 的 有 效 补 充 ， 在 一 定 程 度 上 可 以 解决 了 中 小 企业 
融资 困难 的 问题 。 

4) 互联 网 金融 可 以 通过 社交 网 络 和 电子 商务 平台 控 据 与 金融 相关 的 各 种 信息 ， 满 足 用 
户 的 需求 ， 同 时 对 客户 的 服务 更 具有 针对 性 。 

但 是 对 于 商业 银行 来 说 ， 同 样 具有 自己 的 优势 ， 例 如 

1) 商业 银行 在 金融 领域 中 长 期 处 于 领先 的 地 位 ， 已 经 建立 起 自己 的 品牌 ， 获 得 了 客户 
的 信任 。 

2) 商业 银行 具有 专门 的 监管 机 构 ， 例 如 银 
体系 。 

3) 商业 银行 正在 努力 提升 网 银 和 电子 银行 的 客户 满意 度 和 交易 活跃 度 ， 同 时 提供 了 与 
P2P 不 同 的 差异 化 服务 ， 利 用 长 期 建立 起 来 的 品牌 和 信用 去 吸引 投资 者 和 融资 者 。 

可 以 这 样 说 ， 基 于 大 数据 的 应 用 ， 对 未 来 金融 行业 的 发 展 将 会 起 到 关键 性 的 作用 。 

同时 ， 对 于 其 他 行业 来 说 ， 大 数据 技术 也 会 促进 其 不 断 发 展 ， 见 表 5-2。 

表 5-2 大 数据 同样 可 以 促进 其 他 行业 的 发 展 








监 会 体系 ， 它 同时 具有 成 熟 的 风险 管控 





























名 称 属 性 

数字 媒体 实时 广告 定位 、 精 准 广 告 投放 、 属 性 分 析 
零售 全 渠道 营销 、 实 时 促销 

司法 执法 多 点 监测 、 网 络 安全 检测 

交通 运输 物流 优化 、 缓 解 交通 拥堵 








目前 来 说 ， 很 多 开 企业 都 在 积极 推出 大 数据 相关 的 产品 和 方案 。 

1) IT 企业 根据 客户 的 实际 需求 来 进行 商品 推荐 ， 根 据 客户 购买 商品 的 历史 记录 ， 推 荐 
其 偏好 的 相关 产品 ， 或 者 根据 用 户 的 浏览 历史 ， 推 荐 符合 用 户 喜 好 的 商品 等 。 

2) 如 何 挽留 客户 ， 更 好 地 为 客户 提供 服务 ， 数 据 起 到 了 重要 的 作用 。 可 以 对 客户 进行 
分 类 ， 针 对 不 同 的 客户 群体 ， 制 定 不 同 的 营销 策略 。 例 如 ， 向 新 注册 用 户 发 送 一 些 优惠 券 ; 
向 老 客 户 发 送 一 些 折扣 信息 等 。 


5.3.1 大 数据 在 金融 行业 的 应 用 


“大 数据 ”的 特征 为 : 数据 量 大 ， 数 据 种 类 繁多 ， 数 据 的 增长 速度 加 快 ， 数 据 来 源 的 多 
样 性 。 在 大 数据 时 代 ， 关 于 大 数据 的 挖 据 工作 迅速 增加 ， 它 的 数据 来 源 更 加 广泛 ， 可 以 通过 
数据 交换 、 整 合 发 现 市 场 的 趋势 ， 让 企业 或 者 商业 银行 发 现 商机 ， 创 造 新 的 价值 。 同 时 可 以 
使 用 仿真 和 复杂 的 计算 ， 在 计算 速度 极 快 的 条 件 下 完成 工作 任务 。 当 然 ， 在 大 数据 时 代 下 ， 
我 们 面临 的 主要 问题 是 数据 的 真实 性 ， 因 此 ， 需 要 大 量 的 数据 模型 去 分 析 ， 以 保证 数据 的 准 
确 性 。 

在 几 十 年 前 ， 商 业 银 行使 用 传统 的 核算 记录 各 类 数据 ， 而 在 目前 ， 商 业 银 行 是 以 计算 
机 、 各 种 电子 化 设备 采集 数据 ， 因 此 形成 了 目前 的 海量 数据 。 

对 于 以 前 的 银行 数据 ， 因 为 过 于 分 散 ， 源 头 单一 ， 无 法 表现 客户 的 交易 行为 ， 以 及 客户 
的 喜好 和 消费 习惯 等 特征 。 因 此 ， 银 行 很 难 了 解 客 户 对 于 产品 和 服务 的 满意 程度 ， 无 法 从 根 
本 上 弥补 信息 的 不 对 称 性 。 同 时 ， 商 业 银 行 拥 有 大 量 的 客户 数据 ， 可 以 通过 数据 分 析 获 得 很 
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多 信息 ， 但 是 因为 信息 的 不 全 面 性 ， 可 能 在 管理 和 营销 上 得 到 错误 的 结论 。 
例如 ， 某 位 信用 卡 用 户 月 均 刷卡 10 次 ， 月 均 刷 卡 300 元 ， 每 年 平均 拨打 5 次 客服 电话 ， 
但 是 从 未 投诉 。 那 么 按照 这 些 信息 ， 该 客户 是 一 名 满意 度 较 高 、 流 失 率 很 低 的 客户 。 但 是 真 
实情 况 是 : 该 客户 多 次 打 客 服 电话 都 没有 接 通 ， 客 户 多 次 在 微 博 和 博客 上 进行 抱怨 还 款 不 方 
便 ， 客 户 服务 不 好 ， 可 以 看 出 该 客户 的 流失 风险 很 高 ， 如 图 5-20 所 示 。 
客服 人 员 
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图 5-20 信用卡 窜 户 示 例 


在 大 数据 时 代 ， 商 业 银 行 面临 的 压力 不 仅 来 自 于 同行 业 之 间 的 竞争 ， 同 时 来 自 于 外 部 挑 
战 的 压力 也 越 来 越 大 ， 特 别 是 在 互联 网 和 电子 商务 等 企业 中 ， 它 们 的 产品 创新 能 力 和 大 数据 
应 用 能 力 明显 超过 商业 银行 ， 同时 这 些 企 业 也 在 涉足 金融 领域 , 改变 着 人 们 的 金融 消费 模 
式 ， 银 行将 在 以 后 的 发 展 过 程 中 ， 承 受 着 巨大 的 压力 。 

举例 来 说 ， 阿 里 小 额 贷款 公司 可 以 根据 人 们 的 信誉 度 发 放贷 款 ， 不 需要 提供 担保 。 其 具 
体 做 法 是 根据 其 电 商 平 台 、 淘 宝 网 和 支付 宝 等 信息 数据 ， 依 赖 大 数据 分 析 技 术 ， 判 定 哪 些 个 
人 和 企业 可 以 发 放贷 款 ， 贷 款额 度 是 多 少 等 。 同 时 也 可 以 使 用 大 数据 算法 找 出 竞争 对 手 产 品 
价格 的 变化 ， 从 而 改善 自己 的 价格 以 保持 竞争 力 。 

所 以 说 ， 大 数据 已 经 改变 了 我 们 的 生活 模式 ， 提 供 了 产品 创新 的 新 思路 。 网 民 和 消费 者 
的 区 别 正在 模糊 ， 数 据 成 为 核心 的 资产 。 在 大 数据 时 代 ， 如 何 能 够 利用 大 数据 技术 ， 深 刻 理 
解 消费 者 的 需求 ， 做 出 预测 和 判断 ， 是 企业 和 银行 需要 考虑 的 问题 。 

大 数据 在 金融 行业 的 应 用 除了 行业 分 析 、 风 险 评估 外 ， 还 可 以 了 解 各 系统 的 交易 情况 、 
分 析 客户 行为 特征 。 

1) 通过 各 种 网 络 渠道 ， 及 时 获取 各 种 与 商业 银行 相关 的 事件 ， 针 对 网 上 的 各 种 信息 及 
时 反应 。 

2) 通过 社会 渠道 ， 获 得 了 解 客户 对 商业 银行 的 评价 反应 ， 及 时 调整 和 优化 ， 维 护 商 业 
银行 的 形象 。 通 过 获取 网 上 信息 ， 及 时 了 解 行业 动态 ， 为 存 、 贷 款 工作 提供 数据 支持 。 

3) 通过 客户 网 站 及 其 他 客户 披露 的 数据 ， 及 时 获取 客户 的 信息 。 

4) 通过 新 闻 媒 体 、 社 会 化 网 络 ， 及 时 获取 与 客户 相关 的 事件 ， 获 取 营 销 机 会 ， 规 避风 
险 等 。 

5) 通过 各 种 社交 网 络 〈 微 博 、 微 信 、 博 客 、 社 区 等 ) ， 获 知客 户 感 兴趣 的 热点 话题 ， 
了 解 客 户 行为 ， 通 过 关注 客户 的 网 络 行为 ， 获 取 销 售 信息 。 
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6) 对 于 商业 银行 来 说 ， 可 以 利用 大 数据 技术 分 析 安 观 的 经 济 变化 ， 寻 找 信用 优质 的 小 
微 企 业 等 内 容 。 

1. 在 大 数据 时 代 ， 大 数据 的 应 用 给 金融 行业 带 来 了 哪些 挑战 ? 

1) 金融 同行 业 的 竞争 开始 加 剧 ， 同 时 金融 脱 媒 产 生 了 很 多 新 型 业态 ， 它 们 共同 参与 到 
金融 市 场 的 竞争 中 。 很 多 金融 机 构 都 在 向 综合 经 营 方向 发 展 ， 商 业 银 行 也 纷纷 发 行 各 自 的 金 
融 产 品 和 理财 产品 。 

很 多 第 三 方 支付 公司 通过 对 各 类 产品 的 创新 ， 蔡 代 了 大 量 的 银行 支付 业务 ， 逐 步 知 食 银 
行 支付 结算 的 市 场 份额 。 

2) 很 多 商业 银行 都 把 电子 银行 业务 当做 重要 的 交易 渠道 ， 它 具有 低 成 本 、 高 效率 的 特 
点 ， 大 大 减轻 了 银行 柜 面 的 压力 。 随 着 大 数据 时 代 的 来 临 ， 要 求 对 商业 银行 的 电子 渠道 进行 创 
新 ， 保 证 商业 银行 以 电子 渠道 为 基础 ， 逐 渐 扩 大 交易 渠道 ， 制 定 个 性 化 和 综合 性 的 银行 产品 。 

3) 在 大 数据 时 代 ， 商 业 银 行 传统 的 业务 价值 观 被 削弱 ， 要 求 银行 可 以 提供 个 性 化 的 金 
融 服务 和 解决 方案 ， 提 高 客户 对 产品 和 服务 的 认同 度 。 目 前 来 说 ， 可 以 通过 收集 客户 的 社交 
网 络 信息 ， 分 析 客 户 的 购买 力 和 偏好 ， 提 高 商业 银行 的 利润 率 。 

4) 在 大 数据 时 代 ， 很 多 互联 网 企业 从 网 络 购物 和 供应 链 服务 转向 属于 传统 银行 业务 的 
支付 、 清 算 等 领域 ， 对 商业 银行 的 传统 地 位 造成 挑战 。 商 业 银行 可 以 通过 全 场景 的 金融 解决 
方案 ， 为 客户 提供 资金 流 ， 整 合 银行 的 资源 ， 提 高 利润 率 。 

5) 在 大 数据 时 代 ， 商 业 银行 的 便利 模式 有 很 多 ， 例 如 可 以 通过 银行 的 业务 赚 取 中 小 企 
业 的 利息 收入 和 大 型 企业 的 中 间 业 务 收入 。 商 业 银行 可 以 依赖 数据 服务 能 力 ， 为 客户 提供 电 
子 商务 解决 方案 和 财富 管理 服务 。 

6) 在 大 数据 时 代 ， 商 业 银 行 可 以 充分 利用 业务 数据 和 社交 网 络 数据 。 通 过 集中 、 整 
合 、 挖 气 和 共享 发 挥 数据 的 价值 ， 提 高 风险 管控 能 力 。 提 高 商业 银行 的 整体 管理 水 平 。 

我 们 总 结 来 说 ,金融 行业 普遍 存在 以 下 问题 .数据 丰富 ， 但 是 知识 贫乏 ; 创新 动力 不 
足 ; IT 观念 落后 ; 人 才 匮 乏 ， 如 图 5-21 所 示 。 


金融 行业 普遍 存在 的 问题 ) 


Cm hm hm 
创新 动力 不 足 IT 观念 落后 人 才 匮 乏 


图 $-21 金融 行业 普遍 存在 的 问题 































































数据 丰富 ， 但 是 
知识 贫乏 


2. 金融 行业 应 该 重视 大 数据 应 用 的 哪些 问题 呢 ? 
首先 应 该 加 强 对 数据 的 整合 工作 ， 改 进 数 据 的 处 理 架 构 ， 保 障 数据 的 安全 体系 ， 完 善 数 
据 的 运 维 体系 ， 最 后 加 强 对 专业 化 技术 团队 的 建设 ， 如 图 5-22 所 示 。 
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5-22 金融 行业 应 该 重视 大 数据 应 用 的 哪些 问题 








大 数据 的 应 用 还 可 以 作为 银行 创新 的 催化 剂 ， 引 导 银 行 对 业务 模式 的 变革 ， 推 动 商 业 银 
行 在 经 营 理 念 、 组 织 架 构 、 业 务 流 程 上 进行 全 面 调 整 ， 不 断 增 强 核 心 竞争 力 ， 提 升 运营 效 
率 。 大 数据 为 商业 银行 提供 了 重要 的 战略 发 展 契 机 。“ 大 数据 ”对 于 银行 的 作用 主要 表现 在 
以 下 几 个 方面 ， 如 图 5-23 所 示 。 


“大 数据 ”对 于 银行 的 作用 
对 客户 的 消费 趋势 i 
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提高 商业 银行 的 
管理 水 平 








拓宽 商业 银行 的 业务 领 
域 ， 加 速 产品 的 创新 


图 5-23 “大 数据 ”对 于 银行 的 作 上 月 
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(1) 对 客户 的 消费 趋势 进行 预测 

商业 银行 可 以 利用 大 数据 技术 对 客户 的 消费 趋势 进行 预测 ， 同 时 增强 对 客户 的 细 分 和 市 
场 趋势 的 分 析 力 度 。 例 如 ， 我 们 可 以 基于 人 口 统计 特征 ， 通 过 查询 客服 、 银 行 柜员 的 记录 ， 
以 及 各 种 网 站 的 点 击 流 和 客户 的 支付 历史 等 信息 ， 对 客户 行为 进行 洞察 。 

(2) 对 风险 和 欺诈 进行 洞察 

利用 大 数据 技术 ， 商 业 银 行 可 以 对 风险 和 欺诈 进行 洞察 。 例 如 ,可 以 利用 财务 风险 分 
析 、 贷 款 风 险 评 估 、 实 时 欺诈 检测 等 手段 。 通 过 各 种 社交 媒体 、 市 场 新 闻 ， 获 取 对 银行 客户 
和 潜在 客户 的 洞察 ， 以 提高 对 各 种 风险 的 预测 水 平 。 

(3) 评估 商业 银行 的 服务 质量 和 客户 满意 度 

利用 大 数据 技术 ， 可 以 评估 商业 银行 的 服务 质量 和 客户 满意 度 。 例 如 ， 通 过 与 客户 的 会 
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谈 、 录 音 等 各 种 交互 记录 ， 识 别 客户 的 问题 ， 以 此 提高 服务 的 质量 和 客户 的 满意 度 。 

(4) 开展 精准 营销 

商业 银行 可 以 利用 大 数据 技术 开展 精准 营销 以 提高 利润 ， 降 低 成 本 。 同 时 扩展 了 营销 的 
手段 ， 从 网 点 坐 售 、 电 话 营销 扩展 到 短信 、 微 博 和 微 信 等 平台 ， 如 图 5-24 所 示 。 

















网 点 华 售 
乱 面 ) 


电话 营销 





图 5-24 营销 的 手段 

(5) 提高 商业 银行 的 管理 水 平 

利用 大 数据 技术 ， 提 高 商业 银行 的 管理 水 平 。 实 现 “ 以 数据 说 话 ”， 为 银行 的 市 场 营 
销 、 资 产 负债 管理 、 客 户 关 系 管理 等 方面 提供 决策 支持 。 

(6) 拓宽 商业 银行 的 业务 领域 ， 加 速 产品 的 创新 

利用 大 数据 技术 ， 可 以 拓宽 商业 银行 的 业务 领域 ， 加 速 产 品 的 创新 。 例 如 ， 社 交 媒 体 为 
商业 银行 创造 了 新 的 客户 接触 渠道 ， 从 银行 网 点 、ATM 等 固定 设备 扩展 到 移动 终端 设备 ， 
其 至 扩展 到 微 博 、 微 信 等 社交 网 络 。 渠 道 的 创新 也 引起 对 银行 支付 模式 的 创新 ， 从 传统 支 
付 、 电 子 支付 和 第 三 方 支付 过 渡 到 移动 支付 上 来 ， 如 图 5-25 所 示 。 























网 所 从 入 渠道 的 创新 
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图 5-25 ”拓宽 商业 银行 的 业务 领域 








114 


当 客 户 与 银行 发 生 交 易 的 时 候 ， 会 产生 大 量 的 数据 ， 这 些 数据 为 银行 进行 有 针对 性 的 
营销 创造 了 机 会 。 因 为 数据 隐 含 着 大 量 的 信息 ， 所 以 我 们 最 主要 的 工作 就 是 将 这 些 信息 挖掘 
出 来 ， 并 且 加 以 利用 。 

在 大 部 分 的 应 用 中 ， 随 着 数据 量 的 指数 级 增长 ， 特 别 是 一 些 非 结构 化 数据 的 快速 增长 ， 
这 些 海 量 的 数据 会 导致 数据 分 析 的 时 间 延 长 ， 传 统 的 商业 智能 发 展会 出 现 “ 瓶 人 诺 ”， 而 在 大 
数据 时 代 ， 这 些 问 题 会 成 为 缺乏 为 客户 创造 价值 的 动因 。 

在 很 长 的 一 段 时 间 内 ， 银 行 的 多 数 应 用 都 是 建立 在 客户 与 银行 的 交易 过 程 中 ， 例 如 银行 
开户 、 存 款 和 取款 等 业务 。 要 深入 理解 客户 的 需求 ， 更 好 地 为 客户 服务 ， 仅 仅 依赖 这 些 交 易 
数据 是 远 远 不 够 的 。 随 之 社会 的 发 展 和 科技 的 进步 ， 银 行 可 以 通过 多 种 途径 收集 客户 的 信 
息 ， 例 如 在 一 些 移动 终端 上 收集 客户 的 位 置信 息 ， 然 后 进行 有 针对 性 的 营销 。 在 大 数据 时 
代 ， 这 些 非 结构 化 的 数据 量 远 远 超 过 传统 的 结构 化 数据 量 。 

举例 来 说 ， 某 银行 客户 进入 一 个 购物 广场 ， 在 茶 超 市 里 面 进 行 了 一 笔 120 元 的 消费 ， 客 
户 信息 是 : 30 岁 ， 女 性， 有 一 个 孩子 。 这 时 该 女士 会 收 到 一 条 短信 ， 提 示 她 刚 进 行 了 一 笔 
120 元 的 消费 ， 可 以 在 某 儿 童 商店 享受 5 折 优 惠 一 次 ， 于 是 该 女士 很 有 可 能 会 给 孩子 买 一 套 
衣服 或 者 一 双 鞋 子 。 该 流程 就 实现 了 大 数据 的 秒 级 营销 ， 如 图 5-26 所 示 。 
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商场 消费 信用 卡 业务 系统 数据 仓库 
图 5-26 大 数据 的 秒 级 营销 

















随 着 互联 网 行业 的 发 展 ， 客 户 可 以 通过 互联 网 或 者 其 他 电子 渠道 去 发 表 自 己 的 一 些 看 
法 ， 其 至 是 购买 商品 ， 这 些 动作 都 会 为 商业 银行 收集 客户 的 信息 创造 了 条 件 ， 降 低 了 信息 的 
不 对 称 性 。 也 就 是 说 ， 在 以 前 ， 客 户 对 银行 的 情况 可 以 有 多 种 渠道 去 深入 了 解 ， 但 是 银行 却 
很 难 深入 了 解 客户 的 需求 、 真 实 想 法 和 自身 的 资金 实力 。 

目前 来 说 ， 很 多 商业 银行 可 以 收集 客户 在 互联 网 上 的 一 些 言 论 、 微 博 发 表 的 信息 和 购买 
商品 的 信息 ， 然 后 去 分 析 客 户 最 喜欢 的 服务 和 产品 ， 包 括 客户 自身 的 信用 信息 和 资金 实力 等 
内 容 ， 从 而 正确 理解 客户 ， 统 计 和 分 析出 一 些 商机 ， 有 针对 性 地 进行 精准 营销 ， 并 且 更 好 地 提 
供 服务 。 这 也 为 商业 银行 实现 从 “以 业务 为 中 心 ” 向 “以 客户 为 中 心 ” 的 转变 提供 了 条 件 。 

对 数据 的 分 析 逐 渐 成 为 银行 实现 核心 业务 价值 的 重要 手段 之 一 ， 特 别 是 在 利率 市 场 化 阶 
段 ， 会 出 现存 款 的 稳定 性 降低 和 存 贷款 利 差 普遍 收 罕 的 情况 。 金 融 脱 媒 ， 导 致 大 量 客户 流失 
和 客户 的 忠诚 度 降低 。 银 行 如 何 为 客户 提供 个 性 化 的 服务 已 经 成 了 迫在眉睫 的 课题 之 一 。 因 
此 ， 银 行 需要 进一步 提升 数据 分 析 的 能 力 ， 提 高 对 业务 的 洞察 力 。 

目前 一 些 商 业 银 行 的 数据 量 已 经 达到 了 几 十 TB 以 上 ， 特 别 是 非 结 构 化 数据 的 快速 增 
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长 ， 这 种 指数 级 的 增长 ， 对 数据 分 析 的 能 力 提 出 了 挑战 。 特 别 是 “金融 脱 媒 ”现象 越发 明 
显 ， 银 行 作为 “支付 中 介 ” 的 垄断 地 位 已 经 动 播 ， 同 时 客户 对 银行 服务 的 要 求 越 来 越 高 。 
银行 业 这 个 长 期 以 来 一 直 变 化 缓慢 的 行业 现在 应 该 放下 “架子 ”， 及 时 且 更 加 全 面 深入 了 解 
客户 的 基本 信息 和 属性 ， 对 客户 进行 精准 营销 ， 提 升 业 务 运行 效率 ， 逐 步 提升 客户 体验 。 
举例 来 说 ， 商 业 银行 可 以 基于 大 数据 的 分 析 和 查询 ， 特 别 是 收集 客户 的 地 理 环境 、 年 龄 
和 交易 喜好 信息 ， 有 针对 性 地 为 客户 提供 理财 产品 建议 和 提醒 ， 同 时 通过 对 大 数据 的 分 析 和 
挖掘 ， 评 佑 客户 的 信用 风险 和 资金 偿还 能 力 ， 降 低 银 行 的 各 种 风险 ， 如 图 5-27 所 示 。 
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汪汪 银行 员工 
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尾 、】 ”申请 信 用 卡 
RS 银行 员工 通过 CRM 系 统 碍 
询 客户 历史 借 记 卡 和 信用 


卡 的 交易 信息 ， 分 析 客 户 








的 消费 行为 和 还 款 能 力 客户 的 社交 信息 
J 
通过 社交 信息 分 析 客 户 的 还 款 能 力 和 消费 习惯 


图 5-27 降低 银行 的 各 种 风险 


总 结 : 大 数据 分 析 可 以 实现 从 “以 业务 为 中 心 ”向 “以 客户 为 中 心 ”的 转变 ， 降 低 了 
言 息 的 不 对 称 性 。 

3. 大 数据 在 金融 行业 的 主要 应 用 

应 用 方式 如 图 5-28 所 示 。 





5-28 大 数据 的 主要 应 用 


(1) 客户 管理 
可 以 构建 客户 的 全 方位 分 析 ， 见 表 5-3。 


表 5-3 构建 客户 的 全 方位 分 析 











客户 维度 名 称 基本 属性 
客户 基本 信息 客户 名 称 、 证 件 类 型 、 证 件 号 码 
客户 资产 信息 与 客户 资产 相关 的 信息 
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客户 维度 名 称 基本 属性 

客户 风险 信息 与 客户 相关 的 信用 评级 信息 等 内 容 

客户 财务 信息 客户 产生 的 利润 等 内 容 

客户 事件 信息 例如 提前 还 款 、 逾 期 等 信息 

客户 联系 信息 客户 主要 联系 信息 ， 包 括 家 庭 地 址 、 电 话 等 
客户 产品 信息 包括 存款 类 、 贷 款 类 等 信息 

客户 关系 信息 客户 经 理 与 客户 之 间 的 关系 

客户 信用 评级 客户 信用 卡 申请 资料 、 客 户 的 信用 风险 等 级 






































其 中 在 客户 信用 评级 中 ， 银 行 可 以 通过 收集 客户 信用 卡 申请 资料 ， 分 析 客 户 的 信用 风险 
等 级 ， 帮 助 银行 业务 人 员 做 出 决策 。 特 别 是 国外 的 银行 机 构 ， 需 要 给 客户 多 高 的 利率 ， 是 根 
据 业 务 人 员 的 分 析 决 策 决 定 的 ， 客 户 的 信用 评级 是 一 个 重要 参考 。 

在 客户 风险 信息 中 ， 银 行 可 以 收集 客户 的 基本 信息 、 地 理 环境 、 年 龄 、 交 易 信 息 和 各 种 
信用 信息 ， 对 这 些 海 量 数 据 进 行 分 析 和 挖掘 ， 评 佑 客户 的 信用 风险 和 资金 偿还 能 力 ， 降 低 银 
行 的 各 种 风险 。 

商业 银行 以 大 数据 为 应 用 ， 借 鉴 行 业 先 进 模型 ， 建 立 标 准 体 系 ， 保 证 数据 的 唯一 性 、 完 
整 性 和 共享 性 ， 同 时 商业 银行 也 应 该 制定 加 强 对 客户 数据 的 安全 保护 策略 。 

(2) 营销 管理 社交 媒体 

传统 营销 一 般 采 用 一 对 多 的 方式 ， 这 种 针对 
群体 性 的 营销 ， 成 本 较 高 ， 同 时 准确 性 很 差 。 应 
该 引入 大 数据 的 概念 ， 实 现 有 针对 性 的 智能 营销 ， —4 人 
如 图 5-29 所 示 。 i ° Bh 

对 于 智能 营销 管理 中 的 僵 情 分 析 来 说 ， 主 要 
包括 银行 声誉 分 析 、 银 行 品 牌 分 析 、 银 行 服 务 质 











量 分 析 、 苋 争 产品 分 析 、 产 品评 价 分 析 等 。 主 要 ~ © —v 
是 跟踪 社交 媒体 的 评论 ， 了 解 影响 客户 的 关键 性 才 @ 多 安 户 报 务 





问题 ， 产 生 潜在 的 客户 流失 预警 和 满足 客户 服务 
的 需要 。 也 可 以 长 期 跟踪 新 闻 热 点 ， 包 括 对 正 负 
面 报道 的 分 析 ， 以 提供 个 性 化 的 市 场 分 析 结 

对 于 客户 与 市 场 洞察 方面 ， 主 要 包括 银行 对 市 场 的 趋势 分 析 。 从 社交 媒体 、 市 场 新 闻 信 
息 中 提取 信息 ， 方 便 对 市 场 的 洞察 。 

对 于 运营 洞察 与 优化 ， 主 要 包括 系统 的 数据 保存 与 管理 、 系 统 日 志 维 护 和 系统 故障 分 
析 。 对 于 数据 保存 与 管理 来 说 ， 是 通过 大 数据 平台 对 各 种 历史 报表 和 分 析 数 据 进行 保存 和 管 
理工 作 。 对 于 系统 日 志 维护 来 说 ， 是 为 了 实现 更 多 的 历史 数据 保存 和 更 好 的 分 析 能 力 。 对 于 
系统 故障 分 析 来 说 ， 主 要 目的 是 为 了 对 系统 的 故障 进行 预测 与 分 析 ， 从 而 更 好 地 提升 系统 的 


运营 效率 。 


图 5-29 有 针对 性 的 智能 营销 





777 


(3) 风险 类 管理 

通过 大 数据 技术 ， 可 以 实现 准确 、 高 效 的 风险 控制 ， 基 于 历史 数据 和 实时 数据 ， 实 现 欺 
诈 监测 。 对 于 风险 与 欺诈 洞察 ， 主 要 包括 财务 风险 分 析 、 市 场 与 组 合 风险 分 析 、 贷 款 风 险 评 
佑 分 析 、 反 洗钱 与 欺诈 调查 、 实 时 欺诈 检测 和 市 场 监督 等 内 容 ， 如 图 5-30 所 示 。 


财务 风险 分 析 






市 场 与 组 合 风险 分 析 
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次 诈 检测 





贷款 风险 评 














反 洗 钱 与 欺诈 调 





图 5-30 风险 类 管理 


1) 财务 风险 分 析 是 通过 评估 信用 风险 和 市 场 风 险 所 产生 的 详细 数据 进行 分 析 ， 目 的 是 
为 了 符合 监管 的 需要 。 

2) 市 场 与 组 合 风险 分 析 是 通过 大 量 的 历史 市 场 数据 和 交易 数据 ， 实 现 更 多 的 实时 预测 
风险 分 析 。 

3) 贷款 风险 评估 分 析 是 从 媒体 或 者 社会 公共 信息 中 提取 企业 客户 和 潜在 客户 的 信息 ， 
以 提高 风险 预测 能 力 和 预警 能 力 。 

4) 反 洗钱 与 欺诈 调查 是 提取 犯罪 记录 信息 、 法 律 数据 等 内 容 进 行 欺诈 调查 的 分 析 。 

5) 实时 欺诈 检测 是 通过 大 量 的 欺诈 数据 进行 分 析 。 

6) 市 场 监 督 是 通过 实时 交易 监控 实现 对 市 场 的 监督 作用 。 

大 数据 在 金融 行业 未 来 的 应 用 方向 

大 数据 在 金融 行业 未 来 的 应 用 可 能 会 很 多 ， 如 图 5-31 所 示 。 
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图 5-31 大 数据 在 金融 行业 未 来 的 应 用 方向 
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在 大 数据 时 代 ， 商 业 银 行 需要 做 好 哪些 工作 呢 ? 

1) 在 日 常 运营 过 程 中 ， 商 业 银行 应 该 加 强 对 数据 的 管控 和 数据 处 理 。 其 中 ， 数 据 管控 
应 该 参考 标准 ， 保 障 数据 采集 的 准确 性 和 数据 应 用 的 可 视 化 。 尽 量 降低 银行 的 声誉 风险 。 

2) 商业 银行 应 该 提高 对 大 数据 应 用 的 支持 力度 ， 同 时 实现 资源 利用 的 最 优化 。 

3) 商业 银行 应 该 重视 对 大 数据 技术 人 才 的 培养 和 储备 。 

“大 数据 时 代 ” 将 会 带动 整个 社会 交易 模式 的 变化 ， 未 来 更 多 的 客户 服务 将 在 互联 网 中 
进行 ， 特 别 是 对 于 商业 银行 来 说 ， 更 应 该 注重 挖掘 相关 的 社交 媒体 信息 ， 拓 展 获 取 客 户 信息 
的 渠道 ， 使 之 成 为 银行 经 营 的 有 用 工具 ， 能 够 为 客户 提供 更 好 的 服务 。 


5.3.2 大 数据 在 其 他 行业 的 应 用 


大 数据 在 企业 的 应 用 主要 表现 在 以 下 几 个 方面 : 

1) 客户 全 方位 视图 ， 以 增强 企业 对 客户 的 了 解 。 

2) 进行 可 预测 的 运 维 分 析 。 

3) 通过 大 数据 技术 找 出 新 的 业务 模式 。 

4) 实时 风险 评 佑 ， 降 低 风险 管理 成 本 。 

总 结 来 说 ， 大 数据 在 企业 的 应 用 主要 体现 在 客户 全 方位 视图 、 运 维 分 析 、 找 出 新 的 业务 
模式 和 降低 风险 管理 成 本 等 方面 如 图 5-32 所 示 。 


客户 全 方位 视图 | 运 维 分 析 
引 |/ 
找 出 新 的 业务 模式 一 -# 


图 5-32 大 数据 在 企业 的 应 用 


大 数据 除了 在 金融 行业 的 应 用 外 ， 在 其 他 行业 里 面 有 哪些 应 用 呢 ? 

(1) 电力 行业 

电力 行业 可 以 利用 大 数据 技术 平台 分 析 和 预测 电力 维修 、 产 能 和 故障 原因 等 。 

(2) 医疗 行业 

在 医疗 行业 中 ， 医 院 可 以 通过 对 大 数据 的 应 用 ， 对 远程 病人 进行 监控 ， 尽 量 做 到 预防 保 
健 ， 从 而 有 效 地 降低 病人 的 住院 率 。 大 数据 在 医疗 行业 的 应 用 主要 是 分 析 全 部 的 数据 ， 而 不 
单纯 是 样本 数据 ， 分 析 数 据 的 目的 是 以 预防 和 预测 疾病 为 主 。 

例如 ， 对 传染 病 的 传播 趋势 进行 预测 ， 为 相关 卫生 机 构 提供 快捷 和 近似 的 流行 病 预 测 。 
大 数据 技术 可 以 支持 区 域 卫生 医疗 ， 临 床 决策 支持 ， 建 立 全 民 健 康 档案 ， 药 物 研发 ， 健 康 结 
果 分 析 等 。 同 时 还 可 以 利用 大 数据 技术 对 病人 进行 实时 监控 ， 提 前 发 现 病人 的 危险 情况 。 也 
可 以 实现 电子 病历 、 诊 疗 移动 化 、 智 慧 医院 等 。 

如 图 5-33 所 示 ， 健 康 中 心 利用 健康 管理 门户 网 站 对 每 个 家 庭 实 行 健康 监控 ， 同 时 提供 
各 种 远程 服务 ， 将 重要 的 信息 传送 给 医院 。 医 院 根 据 这 些 信息 将 诊断 结果 再 传送 给 健康 中 
心 ， 健 康 中 心 依据 这 些 诊断 结果 对 每 个 家 庭 提出 健康 意见 。 以 上 过 程 正好 形成 了 一 个 闭环 。 
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图 $-33 ”医疗 行业 大 数据 应 
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(3) 电 商 行业 
电 商 行业 主要 关注 4 个 方面 的 内 容 : 东西 卖 给 谁 ? 去 哪里 找 客 户 ” 卖 给 客户 什么 东西 ? 
怎么 卖 ? 如 图 5-34 所 示 。 


东西 卖 给 谁 ? 


卖 给 客户 什么 东西 ? ” 电 商 行业 主要 关注 点 去 哪里 找 客户 ? 











图 5-34 电 商 行业 主要 关注 4 个 方面 的 内 容 


电 商 行业 使 用 大 数据 技术 的 目的 是 让 数据 分 析 替 代 直 觉 。 通 过 对 数据 的 分 析 得 到 信息 和 
知识 的 反馈 。 

举例 来 说 ， OR 他 们 非常 喜欢 安全 、 舒 适 的 按摩 器 材 。 对 
于 按摩 器 材 厂 商 来 说 ， 就 解决 了 “东西 卖 给 谁 ” 的 问题 。 

通过 大 数据 平台 ， 对 用 户 的 行为 进行 预测 ， 这 就 解决 了 “怎么 卖 ” 的 问题 。 而 对 于 某 
种 商品 有 特殊 入 求 的 客户 他 们 往往 更 看 重 商 品 的 质量 和 品质 ， 其 次 才 会 考虑 价格 的 因素 ， 
这 就 解决 了 “ 卖 给 客户 什么 东西 ”的 问题 。 

很 多 女性 喜欢 母 婴 类 物品 购物 网 站 ,很 多 电 商 可 以 为 这 些 客户 推送 广告 ， 这 就 解决 了 
“去 哪里 找 客户 ”的 问题 。 
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(4) 交通 行业 

大 数据 平台 主要 分 析 交 通 状态 信息 、 地 理 信 息 、 警 力 分 布 信息 、 交 通信 息 控制 、 车 辆 检 
测 记录 、 查 询 统 计 、 实 时 交通 信息 采集 、 交 通 流 实时 信息 、 交 通 流量 统计 等 。 其 中 交通 指挥 
和 调度 包括 各 种 的 交通 信息 服务 、 短 信 提 示 、 和 车载 导航 信息 、 热 线 、 交 通 基 础 信息 服务 、 动 
态 交通 信息 服务 等 。 

如 图 5-35 所 示 ， 交 通行 业 就 是 利用 大 数据 的 技术 ， 通 过 收集 交通 基础 设施 数据 、 实 时 
交通 检测 数据 、GPS 汽车 定位 数据 ， 进 行 数据 的 整合 、 分 类 ， 并 加 载 到 数据 仓库 中 。 然 后 ， 
在 此 基础 上 ， 进 行 数 据 分 析 ， 并 将 分 析 结 果 再 传送 给 交通 指挥 及 调度 系统 。 
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(5) 寡 ; 
智慧 城市 主要 包括 智能 城市 交流 、 应 急 指挥 系统 、 区 域 医疗 系统 、 教 育 信息 化 。 涉 及 的 
大 数据 技术 包括 云 计算 技术 、 物 联网 技术 和 信息 安全 技术 。 通 过 整合 城市 的 信息 资源 ， 建 设 
城市 的 劳动 社会 保险 、 电 子 商 务 、 电 子 政务 ,使 得 城市 更 加 智能 化 。 

建设 智慧 城市 的 难点 是 : 信息 孤岛 严重 、 缺 乏 有 效 的 管理 。 这 样 会 导致 重复 建设 严重 ， 
缺乏 安全 、 完 整 和 科学 的 城市 建设 体系 。 

建设 智慧 城市 的 原则 是 : 创新 、 高 效 服务 、 宜 居 、 便 利 、 健 康 、 绿 色 、 安 全 、 智 能 和 信 
息 共 享 。 具 体 的 内 容 包括 市 民 管理 服务 、 社 会 保险 、 交 通 、 医 疗 、 公 共管 理 、 企 业 管理 、 行 
政审 批 、 纳 税 、 企 业 年 检 、 就 业 和 城市 物流 等 方面 。 

(6) 其 他 领域 

其 他 行业 ， 例 如 国防 安全 ,可 以 利用 大 数据 技术 进行 情报 分 析 、 与 情 分 析 等 。 对 于 证 券 
业 ， 可 以 支持 对 异常 行为 的 监测 功能 ， 同 时 支持 商业 决策 。 对 于 电信 行业 ， 还 可 以 进行 网 络 
监控 分 析 、 客 户 流失 率 分 析 等 。 

大 数据 在 其 他 行业 的 应 用 很 多 ， 还 包括 智慧 乡村 、 智 意 小 区 、 数 据 化 城市 管理 、 情 感 分 
析 、 社 交 CRM 网 络 分 析 、 社 交 媒 体 分 析 、 价 格 优化 分 析 、 客 户 行为 分 析 、 影 响 力 分 析 等 。 




















小 结 


e 据 IBM 公司 预测 ， 到 2020 年 ， 全 世界 产生 的 数据 规模 将 达到 目前 数据 量 的 44 倍 ,， 在 
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这 些 数 据 中 ， 只 有 1% ~5% 的 数据 是 结构 化 数据 ， 这 意味 着 非 结 构 化 数据 和 半 结 构 
化 数据 将 占据 绝 大 部 分 。 

e 大 数据 是 指 巨 量 的 信息 ， 规 模 巨大 ， 已 经 无 法 用 常规 的 软件 工具 在 短 时 间 内 进行 存储 
和 管理 。 大 数据 的 主要 功能 就 是 预测 ， 可 以 将 算法 应 用 到 海量 的 数据 中 ， 预 测 事件 发 
生 的 可 能 性 。 但 是 我 们 不 要 拘泥 于 大 数据 的 概念 。 

e 大 数据 在 金融 、 互 联网 的 应 用 非常 广泛 ， 这 些 企业 在 日 常 运营 过 程 中 产生 了 大 量 的 数 
据 ， 尤 其 在 人 口 众多 的 国家 ， 大 数据 的 应 用 更 为 广泛 ， 通 过 这 种 挖掘 和 利用 大 数据 的 

能 力 ， 可 以 大 大 提高 服务 的 水 平 。 

e 国内 大 数据 应 用 的 基本 现状 都 较为 复杂 ， 目 的 是 为 了 追求 大 数据 技术 而 进行 各 种 大 数 
据 项 目的 建设 ， 这 样 可 能 会 导致 很 多 企业 “ 掉 进 ”以 技术 为 导向 的 误区 。 大 数据 的 
项 目 必须 有 明确 的 业务 需求 ， 用 商业 思维 来 推动 大 数据 的 建设 ， 只 有 这 样 ， 大 数据 的 
价值 才能 充分 体现 出 来 。 

e 在 大 数据 时 代 ， 我 们 面临 哪些 挑战 : 

1) 企业 或 者 银行 将 数据 的 重要 性 提升 一 个 层次 。 

2) 大 数据 管理 上 的 成 本 大 大 提高 。 

3) 产品 创新 不 足 。 

4) 数据 整合 和 数据 质量 管理 的 难度 很 大 。 

5) 一 些 企业 和 银行 在 数据 利用 上 有 一 定 的 局 限 性 。 

6) 应 用 与 理论 研究 的 成 本 很 高 。 

7) 业务 需求 和 技术 之 间 的 协调 。 

8) 人 才 方 面 储备 不 足 。 

。 对 于 中 国企 业 来 说 ， 大 数据 技术 的 研发 和 投入 相对 较 少 ， 目 前 很 多 企业 没有 利用 好 大 
数据 。 大 数据 的 发 展 对 于 我 们 的 启示 是 : 必须 把 握 好 大 数据 技术 ， 推 进 企业 的 转型 创 
新 。 同 时 需要 企业 制定 新 的 大 数据 人 才 战 略 ， 以 价值 体系 激励 员工 。 培 养 洞 察 分 析 的 
能 力 ， 以 个 性 化 服务 去 赢得 客户 。 

e 对 于 商业 银行 来 说 ， 为 了 保证 在 金融 市 场 的 竞争 地 位 ， 将 数据 转化 为 可 以 洞察 的 信息 
和 知识 ， 推 动 业务 的 发 展 ， 提 升 管 理 的 效率 。 同 时 随 着 移动 终端 技术 的 发 展 和 应 用 ， 
已 经 改变 了 客户 的 消费 模式 。 如 果 从 数据 的 角度 来 看 ， 我 们 其 实 已 经 进入 到 了 大 数据 
时 代 。 

。 虽然 日 前 大 数据 没有 明确 的 定义 ,但 是 我 们 每 天 都 在 产生 海量 的 数据 ， 数 据 将 我 们 

“包围 ”起 来 ,我 们 正在 进入 到 “大 数据 时 代 ”。 根 据 Gartner 的 定义 ， 大 数据 的 特征 
具体 涵盖 了 称 为 4V 的 内 容 : 数据 量 大 (Volume) 、 数 据 多 样 化 Variety) 、 实 时 性 强 
( Velocity) 、 商 业 价 值 (Value ) 。 

。 我 们 总 结 来 说 ， 大 数据 的 定义 就 是 通过 快速 采集 、 挖 掘 和 分 析 ， 从 大 数据 量 多 样 化 的 
数据 中 获取 价值 。 形 象 地 说 ， 大 数据 就 是 沙里 淘金 的 过 程 。 

。 对 于 大 数据 来 说 ， 有 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 三 种 类 型 。 

e 大 数据 分 析 平 台 主 要 包含 : 大 数据 基础 平台 、 平 台 组 织 团 队 、 数 据 管控 和 应 用 系 
统 等 。 

。 大 数据 对 于 系统 的 需求 涵盖 了 “三 高 一 低 ” : 高 性 能 、 高 存储 、 高 扩展 和 低 延 迟 。 
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e 对 于 云 计 算 来 说 ， 相 当 于 提供 一 个 快捷 的 海量 数据 的 平台 ， 它 为 数据 提供 了 访问 、 管 
理 的 渠道 和 场所 ， 它 本 质 上 就 是 利用 数据 处 理 技术 实现 各 种 业务 模式 。 

。 在 大 数据 时 代 ， 有 一 些 代 表 性 的 例子 ， 例 如 银行 可 以 根据 对 客户 的 更 深入 了 解 ， 提 供 
有 个 性 化 的 服务 。 还 可 以 进行 相关 的 热点 分 析 、 犯 罪行 为 分 析 、 多 渠道 的 客户 分 析 ， 
天 气 预测 告警 分 析 、 交 通 拥堵 预测 分 析 等 。 

。 近 几 十 年 ， 随 着 计算 机 技术 的 发 展 ， 信 息 已 经 积累 到 了 一 定 程度 ， 它 比 历史 上 任何 一 
段 时 期 充斥 着 的 信息 都 多 ， 而 且 数据 的 增长 已 经 达到 了 前 所 未 有 的 速度 。 对 于 中 国企 
业 来 说 ， 应 该 利用 大 数据 ， 将 传统 模式 转变 成 以 数据 服务 为 核心 的 商业 模式 。 
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第 6 章 数据 治理 体系 

本 章 目 标 

通过 前 几 章 的 学 习 ， 我 们 已 经 理解 了 数据 架构 的 基本 知识 和 相关 案例 ， 同 时 了 解 了 大 数 
据 的 架构 实践 。 为 了 提升 数据 架构 各 个 层次 的 管控 及 其 协作 能 力 ， 我 们 同样 需要 理解 数据 治 
理 方面 的 知识 。 

在 本 章 中 ， 我 们 将 重点 学 习 数 据 治理 方面 的 知识 ， 包 括 数据 治理 的 概念 、 数 据 治 理 建 设 
的 关键 要 素 和 成 功 手段 、 数 据 治 理 建设 的 意义 和 必要 性 、 数 据 标准 的 定义 、 数 据 标准 项 目 总 
体 规划 和 设计 、 数 据 质量 管理 总 体 规 划 、 数 据 质量 管理 的 解决 办 法 、 元 数据 管理 的 设计 方法 
和 数据 生命 周期 的 设计 方法 等 内 容 。 

学 习 本 章 后 ,读者 将 掌握 . 

。 当前 企业 和 商业 银行 的 总 体现 状 和 面临 的 问题 

。 关于 相关 问题 的 改进 措施 

。 数据 治理 的 概念 

。 数据 治理 体系 框架 

。 数据 治理 建设 的 关键 要 素 和 成 功 手段 

。 数据 治理 建设 的 意义 和 必要 性 

。 数据 标准 的 定义 

。 数据 标准 的 分 类 和 应 用 价值 

。 数据 标准 体系 框架 

。 如 何 推进 数据 标准 建设 的 实施 

。 数据 标准 项 目 总 体 规划 和 设计 

。 数据 标准 规划 方法 

。 数据 标准 实施 优先 级 

。 数据 质量 管理 的 概况 

。 数据 质量 管理 总 体 规划 

。 数据 质量 管理 的 解决 办 法 

。 数据 质量 管理 的 执行 

。 元 数据 管理 概况 

。 元 数据 管理 的 设计 方法 和 流程 

。 数据 生命 周期 概况 

。 数据 生命 周期 的 设计 方法 和 流程 
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6.1 数据 治理 体系 概述 


6.1.1 当前 企业 和 商业 银行 的 总 体现 状 和 面临 的 问题 


数据 是 企业 的 原始 材料 ， 也 是 金融 、 电 信 、 互 联网 等 行业 最 大 的 价值 来 源 之 一 ， 如 何 利 
用 这 些 数 据 ， 以 及 如 何 更 好 地 对 数据 进行 挖掘 ， 已 经 成 为 提高 企业 竞争 力 最 重要 的 手段 
过 

1， 当 前 企业 和 商业 银行 的 总 体现 状 

目前 来 说 ， 很 多 企业 和 商业 银行 都 处 于 数据 治理 的 初级 阶段 ， 很 多 系统 的 数据 仍然 面临 
着 各 种 问题 ， 例 如 数据 不 一 致 、 不 完整 ， 数 据 质量 较 差 ， 甚 至 不 同 的 系统 之 间 采 用 的 数据 标 
准 规则 都 不 一 致 ， 这 样 都 会 导致 数据 共享 成 本 的 上 升 和 数据 清洗 工作 量 大 大 增加 。 如 果 缺 乏 
对 这 些 数据 的 有 效 管理 ， 不 仅 会 造成 数据 的 价值 和 潜力 不 可 能 被 挖掘 出 来 ， 同 时 也 会 严重 影 
响 企 业 的 利益 和 决策 。 对 于 这 些 问题 ， 表 面 上 是 数据 的 问题 ， 但 是 更 深层 次 的 原因 是 对 数据 
管理 的 缺失 或 者 相关 制度 不 健全 ， 以 及 人 员 的 职责 划分 不 清晰 。 

举例 来 说 ， 对 于 数据 管理 缺失 的 问题 ， 为 了 保障 系统 能 够 采集 到 完整 、 真 实 和 有 效 的 数 
据 ， 在 进行 系统 建设 的 时 候 ， 必 须 通过 数据 标准 给 予 规划 和 约束 。 对 于 令 人 头疼 的 数据 质量 
问题 ， 它 的 改进 也 是 一 个 长 期 的 过 程 ， 除 了 使 用 技术 手段 保障 数据 的 质量 外 ， 还 可 以 通过 对 
数据 的 管理 来 保证 数据 质量 问题 的 快速 解决 。 很 多 商业 银行 建立 数据 质量 管理 体系 和 数据 治 
理 机 制 ， 通 过 对 数据 质量 问题 的 预防 、 识 别 、 分 析 和 监控 等 活动 ， 满 足 数 据 质量 管理 的 
要 求 。 

2. 企业 和 商业 银行 面临 的 问题 

对 于 多 数 企 业 的 系统 建设 ， 总 会 暴露 出 一 些 弱 点 和 和 缺陷， 例如 系统 多 、 数 据 标准 不 
一 致 、 很 多 数据 难以 共享 等 问题 ， 这 对 核心 业务 系统 的 运行 效率 有 很 大 的 影响 。 所 以 对 
于 大 多 数 企 业 来 说 ， 应 该 着 眼 于 长 期 的 数据 治理 ,挖掘 数 据 的 潜力 ， 为 企业 增加 业务 
价值 。 

对 此 ， 我 们 应 该 考虑 如 何 对 这 些 问 题 进 行 解决 。 


6.1.2 关于 相关 问题 的 解决 办 法 
关于 上 述 问题 ， 我 们 有 以 下 几 种 解决 办 法 ， 如 图 6-1 所 示 。 
一 




























实 对 数据 治理 的 监督 


i 


当地 补充 监管 指标 


ee 


图 6-1 关于 上 述 问 题 的 解决 办 法 
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(1) 落实 对 数据 治理 的 监督 

从 战略 角度 来 说 ， 对 数据 治理 的 监管 有 利于 实现 企业 的 科学 管理 和 可 持续 发 展 ， 例 如 可 
以 将 数据 质量 管理 纳入 到 企业 的 规章 制度 中 ， 建 立 数 据 质量 管理 的 相关 政策 、 流 程 、 人 员 角 
色 和 职责 ， 确立 数据 质量 管理 的 目标 ,保障 相关 的 管理 部 门 科 人员 对 数据 质量 管理 进行 有 效 
评估 和 检查 ， 同 时 落实 数据 质量 责任 制 。 

(2) 改进 企业 的 监管 制度 

将 监管 内 容 细 化 到 业务 流程 的 每 一 步 ， 建 立 有 效 的 激励 和 惩罚 制度 ， 并 且 按 照 各 个 环节 
的 职责 要 求 ， 保 障 相关 人 员 能 够 履行 职责 。 举 例如 下 : 

通过 建立 统一 的 数据 字典 ,确保 客户 、 产 品 和 机 构 等 基础 信息 的 名 称 、 定 义 、 来 源 的 一 
致 性 。 各 个 系统 之 间 可 以 建立 统一 的 数据 标准 ， 规 范 数据 名 称 和 定义 ， 然 后 在 此 基础 上 ， 逐 
步 健 全 数据 仓库 ， 实 现 数据 的 标准 化 和 规范 化 。 同 时 保障 监管 标准 的 本 地 化 ， 贴 近 监 管 的 实 
际 情况 ， 做 好 监管 数据 治理 的 顶层 设计 ， 从 而 引导 企业 的 高 层 领导 从 战略 高 度 认识 数 据 治理 
对 于 企业 的 管理 转型 和 可 持续 发 展 的 作用 ， 然 后 将 数据 治理 纳入 到 公司 的 规章 制度 中 。 对 于 
高 管 层 来 说 ， 应 该 确立 数据 治理 的 目标 ， 建 立 机 制 和 流程 ， 明 确 职责 和 人 员 ， 通 过 各 种 审 
核 、 控 制 的 方式 保障 相关 部 门 对 数据 治理 的 评估 和 检查 ， 有 效 落实 问 责 制 。 

(3) 适当 地 补充 监管 指标 

增强 对 核心 指标 的 验证 作用 。 

因此 ， 我 们 引出 了 数据 治理 的 概念 。 


6.1.3 数据 治理 的 概念 


数据 治理 是 一 套 包 仿 策略、 原则、 组 织 结构 、 管 理 制度 、 流 程 以 及 各 种 相关 技术 工具 的 
管理 框架 。 它 是 数据 管理 与 应 用 行使 权力 控制 的 活动 集合 ， 在 数据 管理 与 应 用 层面 上 进行 规 
划 、 监 督 和 控制 。 数 据 治理 是 为 数据 管理 、 应 用 与 服务 提供 保障 的 一 种 机 制 。 

换 句 话说， 数据 治理 实质 上 就 是 治理 数据 的 政策 和 管理 的 方法 ， 具 体 应 该 落实 到 相应 的 
岗位 和 人 员 职 责 上 ， 通 过 业务 流程 和 数据 流程 的 规范 ， 把 数据 当成 核心 财富 。 如 果 将 数据 看 
做 矿山 的 话 ， 数 据 治理 就 是 具体 的 开采 方法 和 手段 ， 如 图 6-2 所 示 。 








图 6-2 ”数据 治理 类 似 矿 山 开采 的 方法 和 手段 
一 般 来 说 ， 数 据 治理 可 以 分 成 两 个 部 分 : 
1) 数据 的 保障 机 制 ， 包 括 政策 的 制定 ， 考 虑 使 用 何 种 机 制 、 流 程 和 工具 去 保障 数据 的 
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规范 性 。 

2) 需要 考虑 数据 的 质量 标准 和 数据 质量 的 任 责 体系 。 数 据 治理 是 企业 的 责任 ， 需 要 统 
一 的 解决 方案 和 治理 模型 来 保护 及 共享 不 同 层面 的 数据 。 

数据 治理 可 以 看 做 是 一 门 新 的 学 科 ， 能 够 把 企业 的 独立 系统 结合 起 来 ， 重 新 定义 数据 的 
价值 和 保护 机 制 。 从 技术 上 来 讲 ， 数 据 治理 是 从 OLTP 系统 到 后 台 业 务 数 据 库 ， 再 回 到 前 端 
的 一 个 闭环 的 过 程 。 一 般 来 说 ， 数 据 治理 可 以 解决 以 下 几 个 方面 的 问题 。 

1) 制定 完善 的 数据 管理 机 制 。 

2) 对 数据 进行 规范 化 、 标 准 化 和 制度 化 。 

3) 降低 数据 维护 的 难度 和 成 本 。 

对 于 商业 银行 来 说 ， 数 据 治理 主要 包括 建立 数据 治理 机 制 、 数 据 管理 制度 及 流程 ， 以 及 
对 数据 标准 的 制定 等 内 容 。 数 据 治理 的 最 终 目的 是 为 了 提升 数据 的 质量 ,通过 有 效 的 数据 整 
合 、 清 洗 、 应 用 和 对 外 服务 使 商业 银行 能 够 具备 真正 的 管理 能 力 和 竞争 能 力 。 


6.1.4 数据 治理 体系 框架 


对 于 数据 治理 体系 的 框架 结构 ， 可 以 包括 规划 、 机 制 、 治 理 专题 和 对 象 、 实 现 4 个 部 
分 ， 如 图 0-3 所 示 。 
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数据 治理 的 工作 是 在 企业 战略 的 指导 下 进行 建设 





数据 治理 机 制 是 一 种 保障 ， 通 过 组 织 、 流 程 、 制 度 的 建设 和 执行 去 落实 


| 数据 标准 管理 、 元 数据 管理 和 数据 生命 周期 管理 等 内 容 | 
































开发 和 运 维 


图 6-3 数据 治理 体系 的 框架 结构 





数据 治理 规划 : 数据 治理 的 工作 是 在 企业 战略 的 指导 下 进行 建设 。 

数据 治理 机 制 : 数据 治理 机 制 是 一 种 保障 ， 通 过 组 织 、 流 程 、 制 度 的 建设 和 执行 去 落 
实 ， 其 中 数据 治理 的 机 制 是 核心 内 容 ， 数 据 治理 的 执行 实质 上 就 是 数据 治理 机 制 的 落实 和 
实现 。 

数据 治理 专题 和 对 象 是 数据 治理 的 主要 工作 内 容 ， 主 要 包括 : 数据 质量 管理 、 数 据 标准 
管理 、 元 数据 管理 和 数据 生命 周期 管理 等 内 容 。 

数据 治理 的 实现 . 数据 治理 的 实现 包括 开发 和 运 维 等 内 容 。 
6.1.5 数据 治理 建设 的 关键 要 素 和 成 功 手段 

1. 数据 治理 建设 的 关键 要 素 

(1) 以 数据 标准 为 基础 

数据 标准 为 治理 体系 提供 了 基本 的 业务 层面 保障 ， 统 一 了 业务 含义 。 并 且 通 过 对 数据 使 
用 者 和 管理 者 的 角色 定义 ， 建 立 了 基本 的 数据 管理 任 责 体系 。 
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(2) 以 提高 数据 质量 为 核心 

数据 治理 实质 上 就 是 为 了 提升 企业 的 数据 质量 ， 提 高 企业 的 运营 效率 和 管理 分 析 的 能 
力 ， 从 而 最 大 化 地 实现 企业 的 业务 价值 。 保 证 数据 质量 是 数据 治理 工作 最 重要 的 出 发 点 
之 二 

(3) 明确 数据 治理 的 职责 

一 般 来 说 ， 数 据 治理 是 企业 高 层 的 职责 ， 可 以 由 高 层 中 的 某 人 负责 全 企业 的 数据 治理 工 
作 ， 将 数据 治理 的 职责 赋予 管理 层 的 茶 个 委员 会 ， 由 该 委员 会 确定 数据 治理 的 目标 和 原则 ， 
审核 数据 治理 的 相关 制度 、 流 程 ， 对 数据 治理 的 重大 问题 进行 决策 。 同 时 对 核心 数据 进行 分 
类 ， 为 每 类 数据 分 别 指定 相应 的 责任 部 门 和 责任 人 。 

数据 治理 建设 的 成 功 手段 

数据 治理 建设 的 成 功 手 段 主要 由 以 下 儿 种 ， 如 图 6-4 所 示 。 
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图 6-4 数据 治理 建设 的 成 功 手段 





(1) 确定 数据 治理 的 组 织 架 构 和 人 员 角 色 

首先 需要 明确 数据 治理 的 含义 是 什么 ， 以 及 规定 数据 治理 的 组 织 架 构 和 在 架构 中 的 各 个 
角色 应 该 承担 的 职责 是 什么 。 在 规定 的 数据 治理 管理 框架 下 ， 分 别 制 定 每 个 数据 治理 对 象 的 
管理 办 法 。 例 如 ， 制 定数 据 标准 和 数据 质量 的 管理 办 法 。 同 时 ， 还 包括 它们 的 整体 管理 方 
针 、 组 织 架 构 划 分 、 职 能 角色 分 工 以 及 具体 的 工作 方法 、 实 施 细则 等 内 容 。 

(2) 明确 当前 数据 治理 的 现状 

明确 数据 治理 相关 的 人 员 组 织 架 构 ， 调 研 当前 的 数据 治理 现状 。 

(3) 制定 数据 治理 的 远景 目标 

当 明 确 数据 治理 的 现状 之 后 ， 可 以 由 数据 治理 相关 的 委员 会 牵头 制定 数据 治理 的 远景 目 
标 ， 明 确 数据 治理 在 几 年 后 达到 何 种 地 步 ， 然 后 制定 符合 实际 的 项 目 计 划 和 里 程 碑 。 

(4) 提高 企业 对 数据 的 重视 程度 

数据 不 是 一 种 普通 的 商品 ， 又 像 水 一 样 重 要 ， 但 这 些 宝贵 的 财富 往往 会 被 企业 所 忽视 ， 
因此 ， 提 高 企业 对 数据 的 重视 程度 已 经 成 为 未 来 研究 的 必要 课题 。 

(5) 降低 风险 

了 解数 据 在 企业 的 使 用 情况 ， 研 究 数据 长 期 的 趋势 ， 分 析 过 去 事件 发 生 的 原因 ， 预 测 未 
来 数据 可 能 有 哪些 损失 ， 通 过 修改 当前 的 政策 和 管理 手段 ， 改 善 和 降低 各 种 风险 。 

(6) 对 数据 治理 重新 评估 

因为 企业 每 天 都 可 能 会 发 生变 化 ,包括 它们 的 组 织 机 构 、 人 员 角 色 等 ， 它 们 的 数据 、 价 
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值 和 风险 也 可 能 会 发 生变 化 ， 所 以 当 企 业 的 组 织 机 构 、 流 程 和 机 制 发 生变 化 的 时 候 ， 应 该 对 
数据 治理 重新 评估 。 


6.1.6 数据 治理 建设 的 意义 和 必要 性 


数据 治理 建设 的 意义 ， 主 要 包括 : 对 风险 进行 预警 ， 理 解数 据 ， 提 高 数据 的 管理 能 
解决 安全 运营 和 风险 管理 等 需求 ， 保 证 数据 的 一 致 性 、 完 整 性 和 可 用 性 等 。 

我 们 在 了 解数 据 治 理 的 基本 情况 后 ， 再 去 深入 理解 数据 治理 的 几 个 对 象 。 一 般 来 说 ， 数 
据 治理 包含 数据 标准 、 数 据 质量 、 元 数据 管理 、 数 据 生命 周期 管理 等 内 容 。 

1. 数据 治理 建设 的 意义 

(1) 对 风险 进行 预警 

数据 治理 可 以 帮助 企业 或 者 商业 银行 对 各 种 风险 进行 预警 ， 从 而 发 挥 真 正 的 价值 。 

(2) 理解 数据 

数据 治理 可 以 帮助 企业 或 者 商业 银行 理解 并 解决 它们 需要 什么 数据 、 如 何 获取 等 一 系列 
问题 ， 只 有 这 样 才 能 真正 实现 对 数据 的 决策 分 析 和 数据 治理 。 

(3) 提高 数据 的 管理 能 

目前 国内 商业 银行 的 目标 是 从 “以 账户 为 中 心 ”向 “以 客户 为 中 心 ” 进 行 转变 ， 经 

过 多 年 的 数据 积累 和 整合 ， 数 据 治 理 可 以 大 大 提高 商业 银行 的 数据 管理 能 

(4) 解决 安全 运营 和 风险 管理 等 需求 

数据 治理 可 以 解决 企业 或 者 商业 银行 的 安全 运营 、 风 险 管理 等 多 种 需求 。 

(5) 保证 数据 的 一 致 性 、 完 整 性 和 可 用 性 

数据 治理 体系 可 以 保证 数据 的 一 致 性 、 完 整 性 和 可 用 性 。 

数据 治理 是 保障 企业 和 商业 银行 安全 稳定 运营 的 基础 ， 特 别 对 于 商业 银行 来 说 ， 如 何 避 
免 数据 的 泄露 、 算 改 ， 保 证 数据 的 一 致 性 和 完整 性 是 实现 业务 连续 性 的 关键 。 

总 的 来 说 ， 数 据 治 理 对 商业 银行 等 金融 机 构 尤 为 重要 . 

1) 数据 作为 商业 银行 或 者 企业 的 重要 资产 ， 相 当 于 人 体 的 血液 一 样 ， 是 非常 重要 的 。 

2) 高 质量 的 数据 ， 有 利于 管理 决策 层 进行 准确 的 分 析 。 

3) 数据 治理 有 利于 保护 核心 业务 数据 。 

在 了 解数 据 治理 的 基本 概况 之 后 ， 再 去 深入 理解 数据 治理 的 几 个 对 象 。 一 般 来 说 ， 数 据 
治理 包含 数据 标准 管理 、 数 据 质量 管理 、 元 数据 管理 、 数 据 生命 周期 管理 等 内 容 。 

2. 数据 治理 的 主要 对 象 

从 技术 上 来 说 ， 不 准确 的 数据 会 导致 系统 产生 更 多 的 压力 和 成 本 ， 特 别 是 很 多 数据 仓库 
项 目 因为 数据 质量 问题 而 导致 失败 ， 所 以 降低 因为 数据 质量 问题 而 造成 的 损失 和 和 希望 得 到 
开 投资 回 报 是 实施 数据 治理 的 动力 。 对 于 企业 或 者 商业 银行 来 说 ， 在 交易 过 程 中 会 产生 大 
量 的 数据 ， 例 如 客户 基本 信息 、 各 种 业务 信息 和 系统 日 志 信息 等 内 容 。 

数据 治理 工作 对 于 确保 银行 安全 、 稳 定 运营 ， 实 现 业务 创新 ， 具有 重要 的 意义 。 数 据 治 
理 是 建立 数据 治理 机 制 ， 明 确 责 任 人 ， 建 立 数 据 管 理 制 度 和 流程 的 过 程 。 

数据 治理 的 目的 就 是 为 了 提升 数据 架构 各 个 层次 的 管控 及 其 协作 能 力 。 数 据 架 构 为 数据 
治理 提供 基础 能 力 支撑 ， 同 时 把 数据 当成 资产 去 管理 ， 将 价值 挖掘 出 来 。 

数据 治理 可 以 有 4 个 管控 机 制 : 政策 、 组 织 、 流 程 、 技 术 手 段 和 工具 。 
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对 于 企业 来 说 ， 无 论 是 数据 、 人 员 还 是 资产 ， 都 可 以 从 这 4 个 方面 进行 分 析 。 首 先 制定 
管理 政策 、 流 程 ， 建 立 管理 组 织 ， 然 后 建立 一 个 管理 系统 或 者 平台 ， 接 着 把 相应 的 政策 、 组 
织 和 流程 固定 化 和 稳定 化 ， 再 通过 企业 的 管理 制度 去 保障 数据 治理 的 执行 。 

数据 治理 可 以 包含 4 个 领域 : 数据 标准 管理 、 数 据 质量 管理 元 数据 管理 、 数 据 生命 周期 
管理 。 这 4 个 领域 都 是 为 了 提升 数据 价值 。 

下 面 分 别 介 绍 数据 标准 管理 、 数 据 质量 管理 、 元 数据 管理 和 数据 生命 周期 管理 等 相关 
内 容 。 

(1) 数据 标准 管理 

数据 标准 管理 主要 解决 系统 间 数 据 不 一 致 的 问题 。 通 过 建立 规范 、 政 策 体系 、 组 织 、 管 
控 流 程 和 使 用 相应 的 技术 工具 来 保证 核心 数据 的 一 致 性 和 准确 性 。 数 据 标准 是 企业 级 的 数据 
定义 ， 全 企业 所 有 的 系统 都 应 该 遵守 和 执行 数据 标准 。 

(2) 数据 质量 管理 

对 于 数据 质量 管理 来 说 ， 可 以 使 用 技术 工具 或 者 管理 平台 把 可 能 引发 的 各 类 质量 问题 进 
行 修正 ， 通 过 改善 和 提高 组 织 的 管理 水 平 ， 执 行 相关 的 政策 和 流程 ， 使 得 数据 质量 得 到 进 一 
步 提高 。 

(3) 元 数据 管理 

元 数据 管理 主要 是 管理 数据 ， 告 诉 用 户 系统 有 什么 数据 ， 以 及 如 何 去 管理 数据 。 它 
同样 通过 规范 、 政 策 体系 、 组 织 、 管 控 流 程 和 使 用 相应 的 技术 工具 来 满足 对 元 数据 的 
管理 。 通 过 元 数据 管理 可 以 了 解数 据 的 变化 过 程 ， 包 括 这 些 变 化 会 给 系统 带 来 什么 影 
啊 等 。 

(4) 数据 生命 周期 管理 

数据 生命 周期 管理 解决 的 是 系统 效率 问题 和 数据 存储 问题 。 首 先 可 以 划分 4 个 阶段 来 描 
述 数据 的 生命 周期 ， 包 括 : 数据 创建 、 数 据 使 用 、 数 据 归档 和 数据 销毁 。 然 后 使 用 技术 工具 
或 者 管理 平台 解决 4 个 阶段 的 问题 。 通 过 改善 和 提高 组 织 的 管理 水 平 ， 执 行 相关 的 政策 ， 加 
强 对 数据 生命 周期 的 管理 。 

如 果 企 业 缺 少数 据 治理 ， 则 会 产生 不 一 致 的 业务 定义 和 数据 格式 ， 间 接 导 致 数据 的 准确 
性 差 ， 数 据 交 换 和 共享 的 成 本 高 ， 难 以 解决 各 种 复杂 的 问题 。 但 是 如 果 企业 非常 重视 数据 治 
理 ， 就 会 形成 统一 的 业务 定义 和 数据 格式 。 数 据 会 在 跨 部 门 和 路 系统 间 得 到 共享 ， 对 数据 问 
题 形成 跨 部 门 的 协调 解决 机 制 。 

下 面 从 政策 、 组 织 、 流 程 、 技 术 工 具 或 管理 平台 等 4 个 方面 对 数据 质量 、 数 据 生命 周 
期 、 数 据 标准 和 元 数据 管理 进行 分 析 。 

(1) 政策 
通过 制定 相应 的 政策 ， 明 确 部 门 的 责任 ， 确 定数 据 治理 在 各 个 领域 的 政策 、 规 范 ， 通 i 
制定 政策 相应 的 去 规范 相关 人 员 的 行为 。 






















































































注 





通过 建立 组 织 架 构 和 人 员 角 色 ， 确 定数 据 治 理 相 关 的 责任 人 ， 定 义 不 同 责任 人 的 角色 和 








通过 制定 数据 治理 各 个 领域 的 工作 方法 和 步骤 ， 确 定 相 关 人 员 的 分 工 和 合作 关系 。 


(4) 技术 工具 或 管理 平台 
通过 技术 工具 或 管理 平台 保证 数据 质量 的 管理 成 效 ， 文 持 数据 标准 和 元 数据 的 发 布 和 查 
询 ， 以 及 对 数据 生命 周期 进行 管理 。 

1) 用 户 可 以 基于 数据 治理 的 成 熟 度 ， 制 定数 据 治理 体系 建设 的 发 展 路 径 ， 优 先 发 展 薄 
弱 环 全， 遵循 各 个 方面 均衡 发 展 的 原则 ， 保 证 应 用 的 健康 发 展 。 

2) 通过 数据 任 责 管理 机 制 ， 建 立 数据 资产 的 管理 体系 。 把 数据 看 做 是 银行 或 者 企业 宝 
贵 的 资产 ， 通 过 建立 一 整套 的 管理 体系 ， 对 数据 进行 管理 和 访问 ， 从 而 建立 有 效 的 、 长 期 的 
数据 治理 体系 文化 。 

3) 在 业务 管理 和 经 营 过 程 中 ， 使 各 个 部 门 的 人 员 都 能 够 体会 到 数据 的 作用 ， 从 而 推动 
数据 标准 管理 、 数 据 质量 管理 、 元 数据 管理 和 数据 生命 周期 管理 的 建设 。 最 后 带动 业务 的 发 
展 ， 保 证 数据 管理 和 业务 应 用 相互 促进 ， 共 同 发 展 。 

下 面 分 别 叙述 数据 标准 管理 、 数 据 质 量 管理 、 元 数据 管理 和 数据 生命 周期 管理 等 相关 
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内 容 。 
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6.2 ”数据 标准 


6.2.1 数据 标准 概况 

一 、 数 据 标准 的 定义 

在 多 数 企 业 和 商业 银行 中 ， 几 乎 都 面临 着 相同 的 问题 : 如 何 提高 对 客户 的 服务 水 平 ， 如 
何 提高 商业 银行 或 者 企业 的 运营 效率 。 其 中 比较 有 代表 性 的 解决 办 法 就 是 采用 新 技术 ， 突 出 
自身 特点 ， 从 而 吸引 客户 ， 同 时 建立 有 效 的 数据 治理 机 制 ， 利 用 已 经 积累 的 数据 进行 科学 化 
的 管理 。 

因为 大 多 数 企业 和 商业 银行 的 业务 系统 都 是 独立 建设 的 ， 在 数据 共享 过 程 中 ， 保 证 数据 
一 致 性 是 最 大 的 困难 ， 数 据 标准 体系 就 成 了 解决 这 个 问题 的 “救命 稻草 ”。 数 据 标准 体系 为 
企业 或 者 商业 银行 的 数据 整合 提供 了 有 力 的 基础 支持 。 具 体 来 说 ， 数 据 标准 体系 为 企业 建立 
了 标准 的 数据 定义 和 口径 ， 为 数据 共享 提供 了 可 能 性 。 

那么 ,什么 是 数据 标准 呢 ? 

数据 标准 是 一 套 完 整 的 数据 规范 ， 是 数据 在 使 用 和 交换 过 程 中 ， 为 了 保持 数据 一 致 性 和 
准确 性 而 制定 的 规范 ， 它 主要 包括 数据 分 类 、 业 务 标准 和 技术 标准 的 详细 定义 。 数 据 标准 是 
数据 治理 中 基本 的 业务 和 技术 层面 的 保障 。 

数据 标准 有 利于 企业 各 个 部 门 之 间 的 信息 共享 ， 它 是 数据 治理 重要 的 工作 方向 之 一 ， 通 
过 数据 标准 体系 的 制定 ， 有 利于 提升 数据 管理 的 水 平 ， 保 证 数据 质量 的 提高 ， 同 时 确保 核心 
数据 的 一 致 性 和 准确 性 。 

数据 标准 的 工作 内 容 主要 包括 以 下 两 个 方面 。 

(1) 对 数据 标准 分 类 的 划分 

如 果 按 照 数 据 的 使 用 范围 , 来源 以 及 业务 逻辑 划分 ， 可 以 将 数据 标准 划分 成 基础 类 的 数 
据 标准 和 公共 类 的 数据 标准 。 其 中 基础 类 的 数据 是 通过 各 种 业务 处 理 产 生 的 基础 数据 ， 例 如 
客户 信息 、 产 品 信息 和 各 种 账户 信息 等 内 容 。 公 共 类 的 数据 是 在 基础 类 数据 的 基础 上 ， 按 照 
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一 定 的 业务 规则 汇总 的 数据 。 

(2) 建立 数据 标准 的 基本 框架 

一 般 来 说 ， 基 础 类 的 数据 标准 是 标准 定义 的 重点 ， 可 以 参考 行业 内 先进 的 经 验 和 数据 模 
型 。 例 如 ， 可 以 将 基础 类 的 数据 标准 划分 为 : 客户 、 产 品 、 渠 道 、 交 易 和 活动 ， 如 图 6-5 
所 示 。 

1) 客户 。 

通过 梳理 客户 相关 的 业务 流程 ， 获 取 关 于 客 
户 的 核心 数据 项 。 包 括 数据 项 的 组 成 、 分 类 、 业 
务 描述 和 技术 描述 等 内 容 。 A 

> 客 

通过 对 产品 的 标准 定义 和 分 类 ， 提 供 统一 的 
产品 定义 和 产品 代码 等 内 容 。 

3) 渠道 。 . Se 

通过 对 渠道 的 分 类 ， 确 定 梁 道 主要 的 信息 子 。 二 CD 5 
类 以 及 该 信息 子 类 包含 的 数据 项 和 定义 等 内 容 。 

4) 交易 。 图 6-5 数据 标准 的 基本 框架 

通过 对 交易 的 分 类 ， 确 定 交易 核心 的 信息 项 及 其 属性 。 

5) 活动 。 

根据 活动 的 流程 ， 定 义 活动 主题 的 信息 项 、 业 务 描述 和 技术 描述 等 内 容 。 例 如 ， 营 销 计 
划 、 营 销 方式 、 营 销 内 容 等 信息 项 的 组 成 。 

二 、 数 据 标准 的 分 类 和 应 用 价值 

1 数据 标准 的 整体 分 类 

从 整体 上 来 说 ， 数 据 标准 可 以 分 为 业务 数据 标准 和 技术 数据 标准 。 

(1) 业务 数据 标准 

业务 数据 标准 是 从 业务 层面 上 对 数据 的 统一 解释 和 要 求 ， 包 括 重要 数据 项 的 业务 含义 和 
该 数据 项 在 处 理 、 加 工 过 程 中 应 该 遵循 的 业务 规则 等 内 容 。 

从 业务 的 角度 来 说 ， 数 据 标准 又 可 以 分 成 基础 类 数据 标准 和 分 析 类 数据 标准 。 其 中 基础 
类 数据 是 企业 或 者 商业 银行 在 日 常 业务 中 产生 的 基础 数据 ， 同 时 按照 数据 所 属 的 业务 主题 ， 
进一步 划分 成 不 同 的 主题 ， 例 如 客户 、 产 品 、 协 议和 交易 等 。 对 于 分 析 类 数据 来 说 ， 是 为 了 
满足 企业 内 部 管理 的 需要 ， 在 基础 类 数据 的 基础 上 ， 按 照 分 析 规则 进一步 加 工 而 成 的 。 

(2) 技术 数据 标准 

技术 数据 标准 是 从 技术 实现 层面 上 对 数据 的 统一 规范 和 定义 ， 包 括 字段 长 度 、 数 据 格式 
和 数据 默认 值 等 内 容 。 

从 技术 角度 来 说 ， 数 据 标 准 可 以 分 为 结构 化 数据 标准 和 非 结构 化 数据 标准 。 

2， 数据 标准 的 价值 

数据 标准 体系 的 建设 对 业务 部 门 和 技术 部 门 都 有 较 高 的 应 用 价值 ， 如 图 6-15 所 示 。 

(1) 数据 标准 对 于 业务 部 门 的 价值 

对 于 业务 部 门 来 说 ， 可 以 通过 对 数据 标准 的 定义 ， 梳 理 业务 需求 与 流程 ， 通 过 数据 标准 
确定 业务 需求 蓝本 ， 通 过 数据 标准 规范 业务 分 析 。 
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(2) 数据 标准 对 于 技术 部 门 的 价值 

对 于 技术 部 门 来 说 ， 在 系统 设计 中 可 以 直接 使 用 数据 标准 ， 在 开发 中 直接 应 用 数据 标准 
的 映射 信息 ， 还 可 以 根据 系统 建设 需求 提出 对 数据 标准 的 修正 要 求 。 

数据 标准 的 目的 就 是 在 系统 内 实现 数据 标准 的 统一 ， 同 时 能 够 为 外 围 系统 提供 标准 化 的 
服务 。 数 据 标准 可 以 促进 数据 质量 的 提高 和 数据 共享 ， 从 而 提高 整体 的 业务 运营 效率 和 IT 
实施 能 力 。 

三 、 数 据 标准 体系 框架 

1. 体系 框架 

数据 标准 的 体系 框架 可 以 包括 : 文化 和 战略 ， 数 据 标准 内 容 ， 数 据 标 准 制度 和 流程 ， 数 
据 标准 的 组 织 和 角色 ， 数 据 标 准 工具 。 

(1) 文化 和 战略 

文化 和 战略 包括 数据 标准 的 政策 、 原 则 、 沟 通 和 协作 、 宣 传 等 几 个 方面 。 政 策 、 原 则 主 
要 包含 数据 标准 的 战略 。 沟 通 和 协作 主要 包含 协调 机 制 和 沟通 机 制 。 宣 传 主要 包含 数据 标准 
的 推广 和 培训 计划 等 内 容 。 

(2) 数据 标准 内 容 

数据 标准 内 容 包括 基础 数据 标准 、 公 共 数 据 标 准 。 其 中 基础 数据 标准 是 比较 重要 的 ， 可 
以 包含 客户 数据 标准 、 产 品 数据 标准 、 交 易 数 据 标准 、 营 销 数据 标准 等 内 容 。 

(3) 数据 标准 制度 和 流程 

数据 标准 制度 和 流程 包括 管理 制度 、 管 理 流程 。 其 中 管理 制度 可 以 包含 数据 标准 管理 制 
度 、 数 据 标准 化 平台 管理 制度 。 管 理 流程 可 以 包含 数据 标准 的 新 建 流程 、 变 更 流程 、 复 审 流 
程 和 考核 流程 。 
(4) 数据 标准 的 组 织 和 角色 
数据 标准 的 组 织 和 角色 主要 包含 管理 组 织 和 核心 角色 。 其 中 管理 组 织 包 括 信息 技术 委员 
、 数 据 治理 工作 组 。 核 心 角色 包括 数据 标准 决策 者 、 数 据 标准 管理 者 、 数 据 标准 业务 专 
、 数 据 标准 使 用 者 。 
(5) 数据 标准 工具 
数据 标准 工具 主要 包括 标准 管理 工具 和 标准 知识 库 。 其 中 标准 管理 工具 包括 标准 主题 管 
理 、 业 务 标 准 管理 功能 、 技 术 标 准 管理 功能 和 标准 代码 管理 。 标 准 知识 库 包括 外 部 监管 和 行 
业 最 佳 实践 ， 以 及 行业 最 佳 标准 化 案例 。 

数据 标准 的 体系 框架 如 图 6-6 所 示 。 

数据 标准 化 的 过 程 实质 上 就 是 数据 标准 设计 、 管 理 和 应 用 的 过 程 ， 目 的 是 为 了 统一 全 企 
业 核 心 的 业务 定义 和 技术 定义 ， 从 而 提升 企业 的 业务 规范 性 、 业 务 之 间 的 协作 能 力 和 数据 的 
质量 。 同 时 ， 用 户 可 以 参考 制定 数据 标准 的 依据 并 了 解数 据 标准 的 功能 。 

2. 制定 数据 标准 的 依据 

1) 数据 标准 的 制定 可 以 参考 外 部 的 标准 ， 例 如 一 些 国际 、 国 内 的 公共 标准 。 

2) 数据 标准 的 制定 应 该 参考 系统 的 数据 字典 和 公共 代码 。 

3) 数据 标准 的 制定 应 该 参考 业务 制度 和 一 些 管 理 条 例 等 。 

4) 数据 标准 的 制定 可 以 参考 先进 的 行业 经 验 。 
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文化 和 战略 数据 标准 内 容 ‖ 数据 标准 制度 是 数据 标准 的 组 织 县 数据 标准 工具 
| 和 流程 和 和 角色 


Er | Er | Er | ET 








图 6-6 数据 标准 的 体系 框架 





3. 数据 标准 的 功能 

1) 为 外 部 提供 标准 化 的 数据 服务 。 

2) 指导 跨 系统 的 数据 整合 和 模型 设计 。 
3) 有 效 推动 跨 部 门 数据 的 共享 。 


6.2.2 如何 推进 数据 标准 建设 的 实施 


数据 标准 建设 的 实施 主要 包括 以 下 几 个 方面 的 内 容 。 

1) 首先 ， 将 企业 战略 和 规划 作为 数据 标准 化 建设 的 指导 依据 之 一 。 

2) 然后 ， 通 过 合理 高 效 的 组 织 机 制 能 够 有 效 消 除 业 务 和 技术 之 间 的 隔 头 ， 从 而 有 效 地 
推动 数据 标准 的 落地 。 同 时 由 数据 标准 组 负责 制定 各 类 数据 标准 。 

数据 标准 管理 者 包括 : 数据 标准 组 长 和 数据 标准 专家 等 。 对 于 业务 部 门人 员 和 技术 部 门 
来 说 ， 他 们 都 是 数据 标准 的 使 用 者 和 执行 者 。 数 据 标准 管理 者 的 组 织 层次 主要 为 决策 层 、 管 


























理 层 和 执行 层 。 

数据 标准 决策 层 主 要 负责 审批 数据 标准 方案 ， 协 调 重大 数据 标准 事件 ， 同 时 听取 汇报 和 
旨 导 工作 。 

数据 标准 管理 层 主要 制定 、 维 护 数据 标准 化 的 政策 、 流 程 和 制度 等 内 容 。 协 调和 推动 数 
据 标 准 问题 的 解决 。 





数据 标准 的 执行 层 主要 包括 数据 标准 使 用 者 。 他 们 主要 参与 数据 标准 的 制定 ， 配 合 数据 
标准 管理 层 组 织 和 实现 数据 标准 的 落地 。 

为 了 保障 数据 标准 的 实施 落地 ， 在 开发 过 程 中 应 该 设置 相应 的 检查 点 以 保证 数据 标准 的 
执行 管理 。 

数据 标准 的 开发 流程 主要 包括 需求 阶段 、 设 计 阶 段 、 开 发 阶段 、 测 试 阶 段 和 上 线 阶 段 ， 
如 图 6-7 所 示 。 

。 在 需求 阶段 可 以 设置 检查 点 ， 由 需求 人 员 、 治 理工 作 组 相关 的 人 员 检 查 对 于 需求 的 描 

述 是 否 遵循 了 数据 标准 的 规范 。 
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® 在 设计 阶段 可 以 设置 检查 点 ， 由 测试 设计 阶段 
人 员 将 数据 标准 纳入 到 测试 计划 中 。 人 
e 在 上 线 阶 段 可 以 设置 检查 点 ， 由 数据 
治理 相关 负责 人 审核 系统 上 线 时 是 否 
遵循 了 数据 标准 规范 。 et 

。 建立 数据 治理 文化 体系 ， 证 数据 标准 
化 在 企业 各 个 部 门 之 间 得 到 广泛 





km” 开发 阶段 



























宣传 。 = dis 
3) 最 后 开展 数据 标准 化 的 专题 工作 ， 上 线 阶段 ey Wi 有 
包括 健全 数据 标准 的 管理 体系 ， 监 控 数据 标 ee 
准 的 执行 情况 ， 检 查 数据 标准 的 落地 实施 。 图 6-7 开发 流程 


如 图 6-8 所 示 ， 我 们 应 该 建立 由 组 织 规划 、 制 度 、 技 术 和 专项 考核 等 多 种 因素 相 结合 
的 管控 机 制 ， 从 而 有 效 保障 数据 标准 管控 机 制 的 执行 。 


数据 标准 管控 机 制 ) 


A ~ 
组 织 规划 制度 


6-8 数据 标准 管控 机 制 





(1) 组 织 规划 
完成 数据 标准 管理 制度 与 流程 体系 规划 ， 建 立 数据 标准 管控 组 织 。 





(2) 制度 
为 数据 标准 管控 机 制 的 执行 提供 制度 保障 。 
(3) 技术 


从 技术 层面 上 对 数据 标准 管理 系统 进行 建设 。 

(4) 专项 考核 

从 考核 层面 上 将 数据 标准 的 管控 机 制 纳 入 到 绩效 考核 体系 中 。 

完成 数据 标准 在 重要 系统 的 落地 工作 。 通 过 标准 的 落地 ， 实 现 数据 定义 的 统一 ， 促 
进 数 据 的 集中 与 共享 ， 提 升 数据 质量 ， 支 持 业 务 的 发 展 。 数 据 标准 在 重要 系统 的 落地 工 
作 主 要 包括 客户 数据 标准 的 落地 、 公 共 代 码 数据 标准 的 落地 、 产 品 数据 标准 的 落地 ， 如 
图 6-9 所 示 。 

(1) 客户 数据 标准 的 落地 

由 多 个 系统 生成 客户 号 ， 可 能 存在 一 个 客户 多 个 客户 号 的 情况 。 当 客户 数据 标准 落地 
后 ， 对 于 新 增 的 客户 ， 统 一 客户 编号 。 对 于 存量 的 客户 保留 5 位 或 者 6 位 的 编号 。 客 户 数 据 
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标准 的 落地 可 以 统一 各 系统 的 客户 号 ， 作 为 客 
户 识别 的 依据 ， 为 客户 的 归并 打 好 基础 ， 有 利 
于 建立 统一 的 客户 视图 ， 实 现 “ 以 客户 为 中 
心 ”的 目标 。 

(2) 公共 代码 数据 标准 的 落地 

公共 标准 代码 同步 到 多 个 系统 中 ， 可 以 降 
低 代码 维护 的 工作 量 和 系统 的 复杂 度 ， 提 高 数 
据 的 一 致 性 和 准确 性 。 

(3) 产品 数据 标准 的 落地 

产品 数据 标准 可 以 规范 产品 的 分 类 ， 有 利 图 6-9 数据 标准 在 重要 系统 的 落地 工作 
于 提高 产品 的 数据 质量 。 


6.2.3 数据 标准 项 目 总 体 规 划 和 设计 


一 、 数 据 标准 体系 总 体 规 划 的 指导 原则 
数据 标准 体系 总 体 规划 的 指导 原则 ， 如 图 6-10 所 示 。 





数据 标准 的 各 个 阶段 均 帮助 业务 人 员 和 技术 
由 业务 作为 驱动 人 员 梳理 业务 流程 








图 6-10 数据 标准 体系 总 体 规划 的 指导 原则 





1) 数据 标准 的 各 个 阶段 均 由 业务 作为 驱动 。 可 以 建立 数据 标准 管理 机 制 ， 包 括 每 个 阶 
段 的 主题 以 及 未 来 落地 的 方向 ， 同 时 对 各 个 主题 进行 定义 。 

2) 帮助 业务 人 员 和 技术 人 员 梳 理 业 务 流程 。 因 为 数据 标准 的 主题 横 跨 业务 的 方 方 面 
面 ， 所 以 数据 标准 可 以 帮助 业务 人 员 和 技术 人 员 明 确 业 务 规则 ， 梳 理 业务 流程 。 

二 、 数 据 标准 的 规划 方法 设计 

数据 标准 的 规划 方法 可 以 参考 国内 外 先进 的 实践 经 验 ， 并 且 结合 具有 行业 先进 水 平 的 逻 
辑 模型 以 及 专家 的 经 验 。 

(1) 数据 标准 规划 方法 

数据 标准 体系 建设 的 规划 方法 可 以 遵循 业界 先进 的 方法 论 ， 通 过 调研 、 规 划 访 谈 、 数 据 
标准 现状 分 析 ， 了 解 业 务 部 门 对 数据 标准 的 期 竺 和 想法 ， 将 数据 标准 的 需求 转化 成 业务 人 员 
可 以 理解 的 文档 ， 建 立 数据 标准 管理 相关 的 治理 架构 和 管理 流程 。 数 据 标准 规划 的 过 程 如 
图 6-11 所 示 。 

(2) 数据 标准 实施 优先 级 

数据 标准 实施 的 优先 级 需要 考虑 实施 的 迫切 程度 、 实 施 的 难 易 程 度 和 业务 关注 程度 等 3 
个 方面 。 
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对 现 有 系统 的 数 | 建立 公共 代码 的 通过 公共 代码 数 
据 标准 进行 杭 理 据 标准 的 建立 ， 
为 系统 提供 服务 





6-11 数据 标准 规划 的 过 程 





1) 实施 的 迫切 程度 。 通 过 对 各 部 门 领导 的 访谈 和 其 他 调研 工作 ， 了 解 业务 部 门 在 发 展 
过 程 中 关于 数据 标准 方面 遇 到 的 挑战 和 困难 。 对 于 那些 挑战 难度 较 大 、 困 难 较 多 的 主题 ， 在 
实施 顺序 上 会 优先 进行 考虑 。 

2) 实施 的 难 易 程度 。 数 据 标准 实施 的 难 易 程度 主要 是 指 从 标准 的 现状 ， 例 如 数据 不 一 
致 的 程度 、 整 合 的 难度 等 方面 自 下 向 上 地 考虑 数据 标准 的 实施 次 序 。 

3) 业务 关注 程度 。 业 务 关注 程度 是 由 业务 部 门 针对 数据 标准 的 重要 性 组 合 而 成 的 ， 回 
答 了 对 各 目 领 域 的 数据 标准 主题 的 关注 程度 。 

三 、 数 据 标准 定义 方法 设计 

数据 标准 定义 方法 设计 主要 包括 : 数据 标准 分 类 、 定 义 数 据 标准 的 流程 ， 如 图 6-12 
所 示 。 











6-12 ”数据 标准 定义 方法 

1) 数据 标准 分 类 。 

基础 数据 标准 是 数据 标准 定义 的 重点 。 根 据 行业 经 验 和 金融 建 模 的 方法 论 ， 商 业 银行 基 
础 数据 标准 按照 数据 主题 可 以 划分 为 客户 、 产 品 、 客 户 资 产 、 员 工 与 机 构 、 账 户 、 营 销 活 
动 、 交 易 、 渠 道 、 财 务 和 地 理 位 置 。 这 些 数据 主题 既 彼 此 独立 ， 又 互相 关联 。 可 以 参考 业界 
先进 的 逻辑 金融 模型 ， 如 图 6-13 所 示 。 

基础 数据 的 标准 定义 框架 包括 业务 主题 、 基 础 信息 类 、 信 息 子 类 及 其 业务 属性 和 技术 属 
性 。 所 谓 业务 属性 是 根据 现状 ， 对 客户 、 产 品 、 渠 道 、 内 部 机 构 、 协 议 、 地 域 、 财 务 、 事 件 
和 资产 在 内 的 几 大 主题 进行 定义 ， 并 对 每 个 主题 的 重要 信息 类 和 子 类 进行 业务 规则 说 明 。 技 
术 属 性 定义 为 数据 在 应 用 层面 上 的 技术 要 求 ， 包 括 数据 长 度 和 格式 要 求 等 。 

在 业务 需求 和 数据 整合 方面 ， 可 以 将 业务 和 业务 之 间 的 关系 抽象 成 数据 之 间 的 关联 关 
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企业 或 者 个 人 客户 








银行 和 客户 之 间 
交流 的 渠道 














图 6-13 业界 先进 的 逻辑 金融 模型 








系 。 例如， 商业 银行 的 业务 数据 可 以 抽象 成 客户 、 产 品 、 渠 道 、 内 部 机 构 、 协 议 、 膏 销 、 地 
域 、 财 务 、 事 件 和 资产 等 几 大 主题 。 而 商业 银行 的 业务 领域 ,例如 存 贷 款 、 信 用 卡 业 务 、 国 
际 业务 、 票 据 业 务 和 投资 理财 业务 等 内 容 都 可 以 包含 在 这 几 大 主题 之 中 。 
通过 这 几 大 主题 中 对 业务 的 描述 ， 可 以 将 银行 所 有 的 业务 整合 起 来 ， 例 如 可 以 为 客户 关 
系 管理 、 风 险 管理 、 绩 效 分 析 、 产 品 管理 分 析 、 渠 道 分 析 和 利润 贡献 度 分 析 提 供 重要 的 参 
考 。 对 于 基础 信息 类 来 说 ， 它 是 对 业务 数据 的 高 度 概 括 ， 例 如 客户 信息 、 产 品 信息 和 渠道 信 
息 等 ， 我 们 把 这 些 由 于 围绕 业务 领域 而 汇集 在 一 起 的 数据 称 为 信息 类 。 

例如 ， 基 础 数据 标准 将 业务 数据 分 成 客户 、 产 品 、 渠 道 、 协 议 、 营 销 等 内 容 ， 而 每 个 主 
题 又 可 以 分 成 多 个 信息 类 。 例 如 ， 客 户主 题 包括 个 人 客户 信息 、 对 公 客 户 信息 、 同 业 客 户 信 
息 等 ， 而 每 个 信息 类 又 包含 一 个 或 者 多 个 信息 子 类 。 

对 于 信息 子 类 来 说 ， 它 是 在 信息 类 的 基础 上 对 数据 的 进一步 细 分 ， 这 种 细 分 是 为 了 描述 
信息 类 中 的 数据 项 内 容 。 一 个 信息 子 类 可 以 包含 一 个 或 者 多 个 数据 项 内 容 。 

数据 标准 体系 中 基础 数据 框架 的 内 容 和 范围 主要 包括 主题 定义 、 主 题 间 关 系 、 信 息 类 和 
信息 子 类 等 。 业 务 标准 和 技术 标准 的 例子 分 别 如 图 6-14 和 图 6-15 所 示 。 


二 wx | [| 


个 人 客户 信息 。 核心 事件 基本 信息 
信息 类 ”对 公 客户 信息 外围 事 件 核心 信息 
同业 客户 信息 。 ”事件 分 类 分 类 信息 


























客户 归属 
信息 子 类 ”客户 名 称 
资产 负债 


图 6-14 业务 标准 
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名 称 类 金额 类 百分比 
数据 子 类 。 业务 描述 数值 类 日 期 类 
地 址 描述 数量 类 


名 称 数据 varchar (20) 
数据 格式 。 ”业务 描述 varchar (100) 


图 6-15 技术 标准 





2) 定义 数据 标准 的 流程 。 
定义 数据 标准 的 流程 主要 包括 现状 分 析 、 主 题 定义 、 标 准 的 审核 和 标准 执行 建议 ， 如 
图 6-16 所 示 。 





| ”数据 标准 的 











标准 的 审核 人 / 





图 6-16 定义 数据 标准 的 流程 


QD 现状 分 析 。 现 状 分 析 主 要 搜集 和 整理 现 有 系统 中 与 主题 相关 的 业务 和 数据 定义 ， 对 
问题 进行 诊断 和 分 析 。 

Q 主题 定义 。 确 定 主题 的 定义 、 分 类 以 及 信息 项 的 范围 等 。 建 立 数据 项 的 清单 ， 定 义 
每 个 数据 项 的 标准 ， 包 括 业务 属性 和 技术 属性 。 

(3) 标准 的 审核 。 标 准 的 审核 是 由 相关 成 员 对 数据 标准 进行 评审 ， 由 高 层 领导 最 终 确 认 。 

(@ 标准 执行 建议 。 提 出 数据 标准 应 该 遵循 的 原则 以 及 具体 的 执行 建议 。 

四 、 数 据 标准 执行 方法 设计 

数据 标准 执行 方法 设计 主要 包括 : 以 业务 需求 作为 数据 标准 执行 的 驱动 力 、 按 照 计划 逐 
步 推进 数据 标准 的 建设 、 制 定数 据 标准 的 执行 策略 、 完 善 和 管理 数据 标准 的 落地 和 执行 。 

(1) 以 业务 需求 作为 数据 标准 执行 的 驱动 力 

数据 标准 的 执行 依赖 业务 部 门 的 需求 ， 只 有 执行 数据 标准 ， 才 能 体现 业务 的 价值 。 数 据 
标准 的 执行 是 以 依赖 业务 需求 的 迫切 程度 为 前 提 的 。 数 据 标准 具有 长 期 性 、 基 础 性 、 迫 切 性 
等 特点 。 

(2) 按照 计划 逐步 推进 数据 标准 的 建设 

可 以 按照 计划 逐步 地 推动 数据 标准 的 建设 。 首 先 选 择业 务 价值 高 的 项 目 或 者 专题 进行 ， 可 
以 进行 一 系列 的 可 行 性 研究 和 业务 价值 分 析 ， 制 定 详细 的 标准 落地 方案 。 然 后 由 相关 人 员 进 行 
组 织 和 统一 管理 。 最 后 ， 对 于 一 些 新 建 的 系统 建设 项 目 ， 需 要 在 开发 和 设计 过 程 中 设置 检查 点 
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来 确保 数据 标准 的 执行 ， 并 且 不 断 地 完善 和 充实 数据 标准 。 

(3) 制定 数据 标准 的 执行 策略 

从 业务 和 技术 等 多 个 方面 去 验证 数据 标准 执行 方案 的 可 行 性 ， 同 时 根据 分 析 结 果 ， 给 出 
合理 的 数据 标准 执行 建议 。 

(4) 完善 和 管理 数据 标准 的 落地 和 执行 

在 数据 标准 的 定义 和 落地 过 程 中 ,不 断 地 完善 数据 标准 的 管理 办 法 和 规章 制度 ， 组 织 架 
构 和 流程 。 同 时 还 需要 加 强 对 数据 标准 执行 过 程 的 评审 和 监督 工作 ， 并 且 逐 步 建 立 和 细 化 数 
据 标准 的 评审 规范 。 

五 、 数 据 标准 制定 的 工作 步 又 

数据 标准 制定 的 工作 步骤 主要 包含 以 下 几 个 部 分 : 准备 阶段 ; 对 数据 标准 的 需求 数据 项 
进行 采集 ; 由 业务 部 门 确认 关键 数据 项 ; 制定 数据 标准 ， 以 形成 数据 标准 的 初稿 ;对 数据 标 
准 进行 研讨 和 确认 。 

1) 准备 阶段 。 

准备 阶段 主要 包括 对 数据 标准 现状 的 调研 、 工 作 方法 和 工作 模板 的 准备 工作 等 内 容 。 

2) 对 数据 标准 的 需求 数据 项 进行 采集 。 

该 步骤 主要 内 容 包括 数据 项 的 来 源 类 型 、 数 据 项 的 来 源 、 主 题 域 、 主 题 域 大 类 、 主 题 域 
细 类 、 共 享 项 名 称 、 数 据 项 中 文 名 称 、 系 统 表 中 文 名 称 、 系 统 表 英 文 名 称 、 表 内 字段 英文 名 
称 、 说 明 、 是 否 纳 入 共享 项 等 内 容 ， 见 表 6-1。 

表 6-1 对 数据 标准 的 需求 数据 项 进行 采集 






















































































时 数据 | 、 主题 共享 | 更 是 否 
数据 项 的 主题 ， 项 中 | 表 中 | 系统 表 英 文 ” 表 内 字段 英文 、 
项 的 芽 主题 域 细 类 | 项 a | , 上 
来 源 类 型 | 项 的 | 域 | 拔 大 | 主题 域 细 关 | 项 名 | 文 各 | 文 名 | ”名称 名 称 | 
来 源 3 称 共享 项 
个 人 客户 集中 客户 客户 编号 类 
村 私 | 基本 | 1 户 | 签 然 Es 
业务 系统 | CMP 。 人 名 称 、 个 人 2 基本 t_cust_info Cust_no 别 + 证 件 号 码 1 
> 工作 情况 号 | 信息 + 后 组 
-本 | 个 人 客户 入 | ECIF | 客户 户 唯 一 
ECIF 基本 名 称 、 个 人 。， 客户 | 基本 | M_indi ECIF_no ee 唯 1 
人 “| 工作 情况 “了 | 编号 | 信息 学 



































3) 由 业务 部 门 确认 关键 数据 项 。 

该 步骤 主要 内 容 包括 : 系统 和 业务 现状 ， 数 据 标准 制定 依据 ， 数 据 标准 制定 建议 ， 是 
制定 标准 ， 数 据 标准 名 称 等 。 

4) 制定 数据 标准 ， 以 形成 数据 标准 的 初稿 。 

5) 对 数据 标准 进行 研讨 和 确认 。 

根据 提出 的 不 同意 见 进行 标准 修改 ， 最 终 形 成 数据 标准 。 

总 之 ， 在 数据 标准 执行 过 程 中 ， 需 要 对 现 有 的 数据 标准 进行 管理 和 维护 ， 在 落地 过 程 
中 ,逐步 地 完善 数据 标准 管理 流程 和 规范 。 

六 、 推 动 数据 标准 落地 的 方法 
推动 数据 标准 落地 的 方法 主要 包括 以 下 几 种 。 


区 
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1. 通过 业务 驱动 推动 数据 标准 的 落地 

主要 通过 业务 部 门 的 需求 、 标 准 执行 的 效果 和 业务 现实 迫切 程度 等 几 个 方面 去 推动 数据 
标准 的 执行 和 体现 业务 的 价值 ， 同 时 它们 都 是 数据 标准 落地 执行 的 前 提 和 重点 。 

2. 通过 制定 计划 和 采用 监督 评审 的 方式 推动 标准 的 落地 

主要 包括 按 计划 进行 系统 的 改造 和 监督 评审 等 工作 ， 如 图 6-17 所 示 。 














监督 评审 









按 计划 进行 系统 改造 








开发 流程 中 设立 检查 点 来 确保 


以 业务 价值 高 的 项 目 或 专题 
为 优先 ， 实 施 前 应 该 充分 沟 
通 ， 进 行 可 行 性 研究 和 业务 
价值 评估 ， 制 定 详细 落地 执 
行 方案 


数据 标准 的 执行 




























图 6-17 制定 计划 和 和 采用 监督 评审 的 方式 推动 标准 的 落地 


3. 通过 阶段 实施 的 方式 推动 标准 的 落地 
主要 包括 可 行 性 研究 、 价 值 评 佑 、 设 定 范围 和 差异 执行 等 工作 ， 如 图 6-18 所 示 。 














可 行 性 研究 价值 评估 设 定 范围 
























































.业务 影响 业务 价值 评估 “主题 范围 J 
.技术 影响 .业务 部 门 支持 “| .实施 层次 

二 本 - 业务 缺口 
“系统 关联 “需要 吻合 度 * 预 目标 技术 缺口 
.改造 工作 量 。 “试点 推进 


图 6-18 通过 阶段 实施 的 方式 推动 标准 的 落地 


4. 建立 数据 标准 的 闭环 管理 流程 

数据 标准 只 有 在 业务 系统 的 日 常 运营 过 程 中 才能 发 挥 其 作用 。 数 据 标准 可 以 提高 数据 的 
共享 性 和 一 致 性 。 数 据 标 准 的 闭环 管理 流程 包括 标准 应 用 、 标 准 发 布 、 标 准 维护 和 标准 监 
控 ， 如 图 6-19 所 示 。 

5. 通过 完善 管理 组 织 和 流程 去 推动 标准 的 落地 

主要 内 容 包 括 管理 办 法 /规章 制度 、 组 织 架 构 和 流程 ， 如 图 6-20 所 示 。 

举例 来 说 ， 可 以 参考 外 部 标准 、 监 管 要 求 。 先 进 经 验 和 风 辑 模型 来 规划 数据 标准 体系 ， 
如 图 6-21 所 示 。 

数据 标准 管理 是 一 项 具有 系统 性 、 复 杂 性 和 长 期 性 特点 的 工作 。 

随 着 标准 的 落地 和 执行 ， 我 们 可 以 不 断 地 完善 数据 标准 ， 建 立 数据 标准 动态 管理 机 制 ， 
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标准 应 多 3 标准 发 布 
将 标准 成 果 应 用 到 完善 标准 发 布 平台 台 ， 



































襄 门 和 项 目 组 必 
;| 区， 

un | 

a 

标准 维护 标准 监控 
借助 元 数据 管理 工具 通过 数据 质量 管理 指 
实现 数据 标准 更 新 维 标 和 报表 ， 监 控 数 据 
护 与 业务 系统 的 同步 标准 的 执行 状况 


图 6-19 ”建立 数据 标准 的 闭环 管理 流程 














随 着 数据 标准 的 落地 人 员 岗 位 设置 、 构 成 ， | 创建 、 更 新 、 审 核 、 执 行 
理 办 法 / 规章 制度 、 
必须 不 断 充实 和 完善 


| 
| 
| 
| 
执行 ， 数 据 标准 的 管 ”|! 以 及 任职 资质 和 具体 职责 
| 
| 
| 
| 
| 
| 
I 








图 6-20 通过 完善 管理 组 织 和 流程 去 推动 标准 的 落地 










































图 6-21 规划 数据 标准 体系 
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通过 数据 管理 系统 进行 标准 的 更 新 和 发 布 ， 推 动 数据 标准 在 业务 领域 的 落地 和 执行 。 业 务 管 
理 部 门 在 制定 业务 制度 和 产品 创新 时 应 该 遵循 数据 标准 ，IT 操作 人 员 在 系统 内 进行 数据 采 
集 和 维护 过 程 中 应 该 执行 数据 标准 ， 加 快 数据 标准 在 技术 领域 的 落地 。 

对 于 数据 标准 工作 来 说 ， 落 地 执行 是 重点 ， 业 务 驱 动 是 关键 ， 配 套 落 实 是 保障 ， 如 
图 6-22 所 示 。 

(1) 落地 执行 是 重点 

数据 标准 只 有 在 执行 时 才能 体现 标准 的 价值 ， 包 括 对 
业务 、 技 术 和 业务 流程 的 借鉴 ， 然 后 不 断 地 修正 和 完善 数 
据 标准 。 

(2) 业务 驱动 是 关键 

数据 标准 的 建立 和 使 用 不 能 脱离 业务 需求 ， 真 正解 决 
实际 问题 才 是 数据 标准 实施 的 动力 。 

(3) 配套 落实 是 保障 

通过 一 系列 的 配套 落实 来 保障 数据 标准 纳入 到 整体 的 
治理 体系 中 ， 从 而 监控 数据 标准 的 执行 状况 。 图 6-22 数据 标准 工作 

考虑 数据 标准 执行 的 先后 顺序 。 对 于 渠道 、 公 共 统 计 
口径 和 产品 目录 及 其 定义 等 指标 的 数据 标准 ， 按 照 其 重要 性 ， 分 别 划 分 成 高 、 中 、 低 三 个 部 
分 ， 如 图 6-23 所 示 。 


























图 6-23 ”数据 标准 执行 的 先后 顺序 











标准 体系 的 实施 路 线 图 的 制定 包括 建立 数据 标准 管控 体系 、 数 据 标准 定义 和 数据 标准 落 
地 ， 如 图 6-24 所 示 。 

具体 过 程 举例 如 下 : 

(1) 数据 标准 管控 体系 -组 织 流程 -建设 初期 

建立 数据 标准 小 组 机 制 和 管理 流程 。 

(2) 数据 标准 管控 体系 -组 织 流程 - 建设 中 期 

建立 专职 机 构 和 管控 绩效 指标 体系 。 
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数据 标准 体系 的 实施 
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| 组 织 流程 

| 建设 初期 | ”| 建设 初期 | ”| ”建设 初期 」 ”| 建设 初期 ‖ ”| 建设 初期 | | 建设 初期 | 
| 建设 中 期 | 外 建设 中 期 ) ”| ”建设 中 期 上 ”| 建设 中 期 上 ”| 建设 中 期 |】 | 建设 中 期 | 
[ 建立 后 期 | 【 建立 后 期 】 【建立 后 期 ] 【 建立 后 期 】 【 建立 后 期 】 【 建立 后 期 ] 



































图 6-24 ”标准 体系 的 实施 路 线 图 





(3) 数据 标准 管控 体系 -组 织 流 程 - 建设 后 期 

定期 复审 数据 标准 体系 ， 保 证 数据 标准 的 合理 性 。 

七 、 数 据 标准 管控 规范 、 管 控 原 则 、 管 理 组 织 和 管控 流程 

1. 数据 标准 管控 规范 

数据 标准 管控 规范 包括 数据 标准 制定 管理 办 法 、 数 据 标准 审核 管理 办 法 、 数 据 标准 发 布 
管理 办 法 和 数据 标准 管理 规范 等 内 容 ， 如 图 6-25 所 示 。 


(1) 数据 标准 制定 管理 办 法 
明确 数据 标准 制定 的 部 门 ， 明确 数据 标准 制定 的 工 
(2) 数据 标准 审核 管理 办 法 MI M2 
明确 数据 标准 审核 的 部 门 ， 明 确 数据 标准 审核 的 工 

作 环 市 及 工作 细则 。 人 V 
(3) 数据 标准 发 布 管理 办 法 
明确 数据 标准 发 布 的 部 门 ; 明确 数据 标准 发 布 的 工 


作 环 节 及 工作 细则 。 
(4) 数据 标准 管理 规范 图 6-25 数据 标准 管控 规范 
明确 数据 标准 管理 工作 方向 与 思路 ， 明 确 数据 标准 管理 部 门 以 及 各 部 门 在 工作 中 承担 的 
角色 与 职责 。 


2， 数 据 标准 管控 原则 

数据 标准 管控 原则 主要 包含 唯一 性 、 稳 定性 、 前 瞻 性 、 准 确 性 、 可 执行 性 和 低 风险 性 。 
。 唯 一 性 

主要 保证 数据 标准 的 命名 、 编 码 和 业务 解释 的 唯一 性 。 





。 稳定 性 
主要 维持 数据 标准 的 权威 性 和 稳定 性 。 
。 前 脆性 


数据 标准 的 调研 、 设 计 和 执行 要 具备 前 脆性 。 
144 


e 准确 性 

对 数据 标准 的 业务 定义 、 业 务 名 称 和 口径 都 应 该 具备 准确 性 。 

e 可 执行 性 

主要 考虑 业务 实际 情况 和 未 来 发 展 ， 保 证 数据 标准 具有 可 执行 性 。 

e 低 风险 性 

主要 考虑 各 种 业务 风险 和 实施 风险 ， 保 证 数据 标准 能 够 顺利 实施 和 落地 ， 降 低 风 险 性 。 

3. 数据 标准 的 制度 规范 、 数 据 标 准 管理 办 法 和 数据 标准 制定 的 工作 方法 

(1) 数据 标准 的 制度 规范 

指明 数据 标准 管理 工作 方向 与 工作 思路 ， 明 确 参 与 数据 标准 管理 工作 的 部 门 以 及 各 部 门 
在 工作 中 承担 的 角色 和 责任 。 

(2) 数据 标准 管理 办 法 

明确 参与 数据 标准 制定 的 工作 部 门 以 及 数据 标准 制定 的 工作 环节 及 工作 细节 。 

(3) 数据 标准 制定 的 工作 方法 

明确 数据 标准 制定 的 工作 方法 和 原则 。 

如 图 6-26 所 示 。 


FE 


指明 数据 标准 管理 工作 方向 与 工作 思路 ， 明 确 参与 数据 标准 管 
1 We 理工 作 的 部 门 以 及 各 个 部 门 在 工作 中 承担 的 角色 和 责任 


FJ 二 明确 参与 数据 标准 制定 的 工作 部 门 以 及 数据 标准 制定 的 工作 环节 
办 法 及 工作 细节 


杞 数据 标准 制定 的 明确 数据 标准 制定 的 工作 方法 和 原则 
工作 方法 








图 6-26 数据 标准 的 制度 规范 、 管 理 办 法 以 及 制定 的 工作 方法 





4. 数据 标准 的 管理 组 织 和 管控 流程 

数据 标准 管理 组 织 说 明 如 图 6-27 所 示 ， 包 括 : 建立 数据 管控 办 公 室 ， 设置 数 据 标准 主 
管 和 数据 标准 管理 员 ; 设立 数据 标准 责任 人 ， 包 含 数据 标准 负责 人 、 数 据 录 人 人 员 和 数据 使 
用 人 员 等 ， 设 立 系统 责任 人 ， 分 为 数据 标准 负责 人 和 系统 负责 人 。 

数据 标准 管控 流程 主要 包括 标准 申请 、 标 准 规划 、 标 准 审核 、 标 准 实 施 和 标准 规划 评 
估 ， 如 图 6-28 所 示 。 

(1) 标准 申请 

数据 标准 的 申请 流程 是 通过 制定 计划 ， 提 出 修订 数据 标准 的 申请 ， 同 时 提交 给 上 层 领导 
进行 审核 ， 最 后 明确 责任 人 的 过 程 。 它 的 主要 工作 是 由 标准 管理 员 制 定 相 应 的 计划 ， 再 由 数 
据 标准 的 使 用 者 或 者 系统 负责 人 提交 标准 制定 的 申请 ， 最 后 由 标准 的 负责 人 审核 相关 申请 ， 
由 数据 标准 管理 员 将 标准 分 配给 相应 的 责任 人 。 
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数据 标准 管理 组 织 、 
数据 管控 办 公 室 。 数据 标准 责任 人 


























数据 标准 主管 数据 标准 负责 人 
数据 标准 管理 员 ， ”数据 录入 人 员 
CE ， 数据 使 用 人 员 
系统 责任 人 
数据 标准 负责 人 
系统 负责 人 


6-27 数据 标准 管理 组 织 

















0 标准 申请 





但 标准 规划 








nn 标准 审核 








和 标准 实施 





和 标准 规划 评估 








图 6-28 数据 标准 管控 流程 





相应 的 责任 人 可 以 包括 数据 标准 管理 员 、 数 据 标 准 使 用 者 、 系 统 负责 人 、 业 务 数据 标准 
负责 人 和 技术 数据 标准 负责 人 等 。 

流程 主要 工作 内 容 包 括 : 

1) 制定 数据 标准 的 相关 计划 。 

2) 明确 数据 标准 相关 人 员 、 角 色 和 相应 的 职责 。 

3) 记录 数据 在 标准 应 用 过 程 中 存在 的 问题 。 

4) 由 相关 人 员 提 出 数据 标准 新 增 、 人 修改、 删除 的 申请 。 

5) 将 数据 标准 的 申请 提交 到 决策 层 审核 。 

6) 由 数据 标准 管理 员 明 确 相 应 的 责任 人 。 

数据 标准 申请 流程 如 图 6-29 所 示 。 

1) 制定 计划 。 

由 数据 标准 管理 员 制 定 计划 。 

2) 提出 申请 。 

由 数据 使 用 人 人员、 系统 负责 人 提出 申请 。 
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3) 审核 申请 。 

由 业务 、 技 术 数 据 标准 负责 人 审核 申请 。 
4) 明确 责任 人 。 

由 数据 标准 管理 员 明确 责任 人 。 





”明确 责任 人 ) 





\ 数据 标准 管理 员 
a 审核 申请 。 
2 有 2 业务 、 技 术 数据 标准 负责 人 
(提出 申请 。 
数据 使 用 人 员 








GET *% 人 ^ 


数据 标准 管理 员 








图 6-29 数据 标准 申请 流程 
(2) 标准 规划 


数据 标准 的 主要 工作 是 通过 对 标准 现状 的 调研 和 分 析 ， 制 定 业 务 数 据 标准 和 技术 数据 标 
准 ， 最 后 形成 数据 标准 初稿 ， 如 图 6-30 所 示 。 


数据 标准 的 主要 工作 ) 


形成 数据 
标准 初稿 





制定 业务 


调研 和 分 析 数据 标准 





图 6-30 数据 标准 的 主要 工作 
数据 标准 规划 流程 如 图 6-31 所 示 。 
e 现状 分 析 
由 业务 数据 标准 负责 人 、 技 术 数 据 标准 负责 人 进行 现状 分 析 。 
e 数据 标准 业务 定义 


由 业务 数据 标准 负责 人 进行 数据 标准 业务 定义 。 
。 数据 标准 技术 定义 
由 技术 数据 标准 负责 人 进行 数据 标准 技术 定义 。 
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。 数据 标准 初稿 制定 
由 业务 数据 标准 负责 人 、 技 术 数据 标准 负责 人 制定 数据 标准 初稿 。 


pz 
7 
(a oa 






数据 标准 初稿 制定 ) 
业务 数据 标准 负责 人 
【数据 标准 技术 定义 ) 技术 数据 标准 负责 人 


技术 数据 标准 负责 人 





号 





【 数据 标准 业务 定义 ) 
业务 数据 标准 负责 人 


现状 分 析 


业务 数据 标准 负责 人 
技术 数据 标准 负责 人 








图 6-31 数据 标准 规划 流程 


(3) 标准 审核 
标准 审核 的 主要 工作 是 对 数据 标准 规划 进行 审核 ， 审 核 通 过 后 ， 再 对 相关 部 门 进 行 批复 
和 发 布 ， 如 图 6-32 所 示 。 


批复 
图 6-32 标准 审核 
数据 标准 审核 与 发 布 流 程 ， 如 图 6-33 所 示 。 










数据 标准 管理 员 





数据 标准 














图 6-33 ”数据 标准 审核 与 发 布 流程 
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(4) 标准 实施 

数据 标准 的 实施 的 基本 步骤 包括 制定 数据 标准 实施 方案 、 审 核 数据 标准 实施 方案 和 数据 
标准 的 实施 ， 如 图 6-34 所 示 。 相 关 的 责任 人 可 以 是 数据 标准 管理 员 、 数 据 标 准 主管 等 ， 如 
图 6-35 所 示 。 

1) 制定 数据 标准 实施 方案 

由 数据 标准 管理 员 制 定数 据 标准 实施 方案 。 

2) 审核 数据 标准 实施 方案 

由 数据 标准 主管 审核 数据 标准 实施 方案 

3) 数据 标准 的 实施 

由 系统 负责 人 进行 数据 标准 的 实施 。 


审核 数据 
标准 实施 方案 


二 系 统 负责 人 
的 实施 


“ 数据 标准 主管 











ee : ~ 
施 方案 





we 据 标准 
实施 方案 
图 6-34 ”数据 标准 的 实施 的 基本 步 又 图 6-35 ”数据 标准 的 实施 流程 的 相关 负责 




















(5) 标准 规划 评估 

对 数据 标准 规划 进行 定期 评估 ， 根 据 评估 结果 对 数据 标准 规划 进行 修正 ， 保 证 数据 标准 
的 正确 性 。 标 准 规划 评估 流程 主要 包括 评 佑 规划、 审核 方案 、 标 准 评估 和 标准 变更 ， 如 
图 6-36 所 示 。 


技术 数据 标准 负责 人 
业务 数据 标准 负责 人 


数据 标准 管理 员 





图 6-36 标准 规划 评估 


八 、 数 据 标准 的 全 面 定义 
数据 标准 是 通过 一 整套 的 数据 规范 、 管 控 流 程 和 各 种 技术 工具 确保 重要 的 数据 是 一 致 的 
149 


和 准确 的 。 例 如 ， 通 过 数据 标准 保证 产品 、 客 户 、 机 构 、 账 户 等 内 容 都 是 一 致 的 、 准 确 的 。 
1. 数据 标准 体系 设计 指导 原则 
数据 标准 体系 设计 指导 原则 包括 唯一 性 、 稳 定性 、 前 脆性 、 准 确 性 、 可 执行 性 和 低 风 险 
性 ， 如 图 6-37 所 示 。 


充分 考虑 业务 风险 和 技术 实施 
[作风 险 性 风险 ， 保 证 标准 的 顺利 执行 


数据 标准 体系 设计 指导 原则 YY 





可 
入 
一 人 


9 执行 性 | 根据 实际 情况 和 未 来 的 发 展 状 
“> 部 ,使 标准 具有 可 执行 性 


(x 


| 业务 定义 、 业 务 名 称 、 业 务 品 
> ff 各 内 罕有 各 准 砚 性 
{前 瞎 性 | 














标准 的 调研 、 设 计 和 执行 要 具备 前 瞻 性 


全 
>、 


te 编码 、 保证 数据 标准 的 权 
| 一致 性 | 
业务 解释 的 | 威 性 和 稳定 性 


图 6-37 ”数据 标准 体系 设计 指导 原则 


























2. 数据 标准 包含 的 内 容 
数据 标准 是 企业 级 的 数据 定义 ,企业 所 有 系统 都 应 该 遵守 和 执行 数据 标准 。 数 据 标准 可 
以 包括 每 个 数据 项 的 业务 属性 、 技 术 属 性 和 管控 属性 ， 如 图 6-38 所 示 。 




















标准 编号 、 标 准 中 文 名 称 、 标 准 英文 名 称 、 
大 二 咎 对 标准 别名 、 业 务 定义 、 业 务 规则 、 相 关 标 
准 关系 、 标 准 来 源 


5 才 引 对 数据 类 别 、 数 据 格式 、 取 值 范围 、 编 码 规则 


人 标准 定义 部 门 、 标 准 使 用 系统 








图 6-38 数据 标准 包含 的 内 容 


(1) 业务 属性 

主要 包括 标准 编号 、 标 准 中 文 名 称 、 标 准 英 文 名 称 、 标 准 别名 、 业 务 定 义 、 业 务 规 则 、 
相关 标准 关系 、 标 准 来 源 。 

(2) 技术 属性 

主要 包括 数据 类 别 、 数 据 格式 、 取 值 范 围 、 编 码 规则 。 
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(3) 管控 属性 

主要 包括 标准 定义 部 门 、 标 准 使 用 系统 。 

例如 ， 客 户 张 三 、 李 四 的 年 龄 和 性 别 分 别 为 40 岁 、50 岁 ， 男 、 女 。 此 时 ， 性 别 编码 出 
现 了 不 一 致 ， 见 表 6-2 和 表 6-3 ， 这 就 需要 针对 两 张 表 的 内 容 制定 统一 的 数据 标准 。 


表 6-2 性 别 编码 1 











客户 姓名 年 龄 性 别 
张 三 40 M 
李 四 50 





表 6-3 性 别 编码 2 




















客户 姓名 年 龄 性 别 
张 三 40 00 
李 四 50 01 





统一 后 的 数据 标准 如 图 6-39 和 图 6-40 所 示 。 


六 你 


ET 

0 
名 称 

mH 其 

下 


图 6-39 编码 1 


低 码 值 低 码 描述 业务 说 明 





过 | 
| 


EE 








图 6-40 编码 2 


上 文 提 到 数据 标准 包括 每 个 数据 项 的 业务 属性 、 技 术 属 性 和 管控 属性 ， 举 例如 图 6-41 
所 示 。 

九 、 数 据 标准 的 应 用 过 程 

1. 数据 标准 的 应 用 过 程 

数据 标准 的 应 用 过 程 如 图 6-42 所 示 。 

2. 数据 标准 项 目 建设 过 程 

1) 根据 数据 标准 的 实施 路 线 图 ， 可 以 有 计划 地 进行 数据 标准 主题 定义 工作 ， 逐 步 实现 
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标准 大 类 标准 子 类 | 基本 概况 
标准 小 类 | 证 件 信息 。 | 标准 编 | 100 


. 描述 个 人 客户 某 种 证 件 的 具体 号 码 信息 ， 
人 如 身份 证 号 





公民 身份 证 号 码 是 特征 组 合 码 ， 由 17 位 数 
业务 规则 字 本 体 码 和 一 位 校 验 码 组 成 


CE 
标准 

MG 本 
[用 | 
| [RE | 
| 信息 使 用 门 | xx 银 和 h 心 


图 6-41 编码 表 















































“查询 数据 标准 ， 以 开发 符合 数据 标准 的 应 
. 提交 标准 代码 比 对 文档 

















了 
. 数据 标准 子 系统 ee 
. 维护 数据 标准 人 
. 制定 、 发 布 标准 
. 应 用 系统 代码 标准 比 对 














* 查询 数据 标准 规范 ， 反 馈 建议 











业务 部 门 








* 提出 数据 标准 需求 申请 


i 














图 6-42 数据 标准 的 应 用 过 程 


数据 在 业务 和 技术 上 的 统一 。 

2) 结合 最 佳 实践 ， 推 动 数据 标准 在 系统 建设 中 的 执行 和 落地 。 

3) 建立 数据 标准 管理 组 织 和 流程 ， 实 现 标 准 的 维护 、 发 布 ， 同 时 实现 数据 标准 的 制度 
化 ， 提 高 全 企业 的 数据 标准 文化 和 标准 的 管理 水 平 。 

4) 数据 标准 体系 可 以 分 成 数据 标准 规划 、 数 据 标准 定义 、 数 据 标准 执行 和 数据 标准 管 
理 等 几 个 部 分 。 其 中 数据 标准 规划 是 标准 体系 的 总 纲 ; 数据 标准 定义 是 数据 标准 最 重要 的 部 
分 之 一 ， 是 业务 和 技术 进行 沟通 的 桥梁 ; 数据 标准 执行 是 业务 价值 体现 的 部 分 ; 数据 标准 管 
理 是 标准 在 系统 中 正常 使 用 的 保障 。 

数据 标准 规划 是 长 期 的 和 基础 性 的 工作 ， 通 过 对 高 层 领导 和 业务 部 门 的 访谈 ， 包 括 对 数 
据 标 准 实施 的 迫切 性 、 难 易 度 和 业务 部 门 对 数据 标准 的 关注 度 进 行 综合 衡量 ， 提 出 具体 的 数 
据 标准 实施 路 线 图 。 

1352 





数据 标准 定义 是 在 参考 相关 标准 体系 分 类 的 基础 上 ， 确 定数 据 标准 的 框架 内 容 。 对 于 商 
业 银 行 来 说 ， 可 以 包括 客户 、 产 品 、 员 工 和 机 构 、 活 动 、 交 易 等 内 容 。 数 据 标准 不 仅 需要 对 
核心 的 主题 进行 详细 定义 ,而且 还 需要 描述 该 主题 的 业务 属性 和 技术 属性 。 

数据 标准 执行 是 按照 业务 需求 的 紧迫 程度 ， 制 定 合 理 的 执行 方案 。 对 于 标准 的 管理 工作 
是 建立 相应 的 管理 组 织 ， 包 括 建立 领导 小 组 、 标 准 管理 办 公 室 ， 设 立 数据 标准 管理 员 和 相应 
的 业务 专家 等 。 通 过 数据 标准 工作 流程 的 制度 化 和 工作 化 ， 提 高 数据 标准 的 管理 水 平和 管理 
效率 。 数 据 标准 体系 的 产 出 物 可 以 包括 数据 标准 体系 的 规划 、 标 准 主题 的 定义 、 执 行 建 议和 
管理 制度 等 内 容 。 

根据 业务 需求 和 对 系统 现状 的 理解 ， 编 写 数 据 标准 实施 计划 、 数 据 标准 实施 路 线 图 和 各 
个 阶段 的 实施 内 容 等 。 其 中 对 数据 标准 主题 的 定义 可 以 包括 : 客户 主题 数据 标准 、 产 品 主题 
数据 标准 、 渠 道 主题 数据 标准 、 交 易 主题 数据 标准 、 内 部 机 构 主题 数据 标准 等 。 

客户 主题 数据 标准 是 根据 现 有 的 数据 现状 、 客 户 信息 的 使 用 情况 ， 细 化 对 客户 主题 的 标 
准 定义 ， 包 括 对 客户 主题 的 详细 定义 、 数 据 项 类 别 、 业 务 标准 和 技术 标准 等 内 容 。 

产品 主题 数据 标准 同样 是 根据 现 有 的 数据 现状 、 各 业务 部 门 对 产品 信息 的 需求 ， 细 化 产 
品 主题 的 数据 标准 定义 ， 包 括 产品 主题 的 定义 、 产 品 特征 和 属性 、 对 产品 属性 的 标准 定义 等 
内 容 。 

3. 数据 标准 的 主要 应 用 

数据 标准 的 应 用 以 业务 标准 和 技术 标准 为 基础 ， 是 业务 部 门 和 技术 部 门 沟通 的 桥梁 ， 同 
时 为 IT 系统 的 建设 提供 重要 参考 。 随 着 标准 体系 建设 的 不 断 深入 ， 可 以 逐步 实现 数据 标准 
对 各 个 应 用 系统 的 指导 作用 ， 可 以 促成 系统 的 集成 和 数据 的 共享 ， 真 正 实 现 业 务 价值 。 

对 于 商业 银行 来 说 ， 可 以 借助 企业 级 客户 管理 项 目 (ECIF) 的 建设 和 实施 ， 实 现 客户 
主题 标准 在 ECIF 中 的 全 面 落地 。 在 ECIF 项 目的 需求 和 设计 阶段 ， 数 据 标准 小 组 可 以 提出 
需求 ， 同 时 进行 数据 标准 解释 工作 等 。 

通过 数据 标准 体系 在 相关 系统 中 的 应 用 ， 为 业务 部 门 和 技术 部 门 产生 价值 。 

如 图 6-43 所 示 ， 数 据 标准 的 主要 应 用 包括 : 数据 标准 定义 分 析 ; 通过 数据 标准 的 建 
设 ， 优 化 业务 流程 和 提高 业务 价值 ;利用 数据 标准 ， 解 决 业务 需求 统一 的 问题 ; 在 数据 标准 
的 定义 中 ， 数 据 标准 与 源 系 统 的 映射 关系 反映 了 现 有 系统 和 数据 标准 之 间 的 关系 ; 数据 标准 
的 完善 是 一 个 闭环 的 过 程 等 。 


人 数据 标准 定义 分 析 


' 通 过 数据 标准 的 建设 ， 优 化 业务 流程 和 提高 业务 价值 
























利用 数据 标准 ， 解 决 业务 需求 统一 的 问题 


> 系统 的 遇 射 关系 反映 了 现 有 系统 和 数据 标准 之 间 的 关系 





图 6-43 ”数据 标准 的 应 用 
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1) 数据 标准 定义 分 析 。 通 过 数据 标准 对 各 个 信息 项 的 标准 定义 ， 包 括 业 务 定义 和 技术 
定义 ， 使 管理 人 员 和 业务 人 员 通 过 数据 标准 了 解 统一 的 标准 口径 、 业 务 定 义 和 每 个 信息 项 的 
业务 含义 ,提高 数据 的 一 致 性 和 共享 性 。 

2) 通过 数据 标准 的 建设 ， 优 化 业务 流程 和 提高 业务 价值 。 数 据 标准 可 以 对 业务 流程 进 
行 优化 和 改进 。 例 如 ,证 件 类 型 的 数据 标准 化 可 以 实现 对 居民 身份 证 的 有 效 支 持 ， 提 高 客户 
的 服务 能 力 ， 特 别 是 在 EC 项 目 中 ， 对 数据 标准 的 实施 有 利于 优化 客户 归并 的 业务 流程 ， 
同时 提高 数据 质量 。 

3) 利用 数据 标准 ， 解 决 业务 需求 统一 的 问题 。 数 据 标 准 的 定义 是 基于 业务 部 门 和 技术 
部 门 的 讨论 和 确定 后 得 到 的 。 例 如 ，ECIF 系统 代码 采用 公共 代码 数据 标准 ， 可 以 减少 业务 
需求 统一 的 工作 量 ， 满 足 业 务 需 求 。 

4) 在 数据 标准 的 定义 中 ， 数 据 标准 与 源 系 统 的 映射 关系 反映 了 现 有 系统 和 数据 标准 之 
间 的 关系 。 

5) 数据 标准 的 完善 是 一 个 闭环 的 过 程 。 例 如 ， 数 据 标准 的 执行 为 相关 业务 与 技术 的 规 
划 提 供 参考 ， 同 时 业务 需求 的 变化 促使 对 数据 标准 的 修订 ， 然 后 逐步 完善 数据 标准 。 

如 何 保证 数据 标准 的 可 持续 发 展 和 不 断 完 善 ? 可 参考 如 下 内 容 。 

1) 通过 遵循 业务 需求 ， 推 动 数据 标准 在 全 企业 的 落地 实施 。 

2) 数据 标准 需要 结合 企业 战略 和 业务 需求 ， 这 样 才 能 体现 业务 的 价值 。 在 这 种 思路 
下 ， 开 展 数据 标准 的 定义 、 执 行 工 作 ， 形 成 数据 标准 、 业 务 需 求 和 系统 设计 开发 三 者 之 间 的 
融合 。 

3) 可 以 借助 数据 标准 的 评审 工作 ， 以 及 对 数据 标准 管理 系统 的 建设 ， 促 进 数据 标准 的 
执行 和 落地 。 


6.2.4 数据 标准 项 目 总 结 


数据 标准 建设 是 长 期 性 的 工作 ， 对 于 企业 或 者 商业 银行 来 说 ， 数 据 标准 体系 建设 的 好 坏 
直接 影响 企业 内 部 管理 水 平和 对 外 服务 的 能 

数据 标准 建设 可 以 引入 先进 的 行业 经 验 和 方法 论 ， 从 数据 标准 的 规划 、 定 义 、 执 行 和 管 
理 等 各 个 方面 进行 标准 体系 的 建设 ， 提 高 全 企业 的 数据 标准 文化 水 平 。 标 准 体系 的 建设 依赖 
业务 需求 ， 它 也 是 一 个 长 期 的 过 程 。 



































6.3 ”数据 质量 管理 


6.3.1 数据 质量 管理 概况 


1. 数据 质量 管理 概念 

数据 质量 管理 可 以 通过 提高 管理 水 平 ， 严 格 执行 相关 的 政策 和 规范 ， 或 者 使 用 一 些 技术 
工具 ， 使 得 数据 质量 得 到 进一步 的 提升 。 对 于 数据 质量 管理 来 说 ， 它 是 一 个 闭环 的 管理 过 
程 ， 经 过 不 断 循环 、 改 善 ， 逐 步 提高 数据 的 质量 ， 并 最 终 为 企业 赢得 经 济 效 益 。 

数据 质量 管理 的 目的 是 提升 系统 的 数据 质量 ， 业 务 人 员 通 过 数据 质量 管理 系统 发 现 数据 
在 流转 过 程 中 存在 哪些 问题 ， 经 过 不 断 修正 和 完善 ， 使 数据 质量 得 到 不 断 提升 。 
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数据 质量 管理 目标 是 提升 数据 的 正确 性 、 一 致 性 和 完整 性 。 通 过 数据 质量 管理 办 法 、 组 
织 、 流 程 ， 发 现 数 据 质量 问题 并 且 及 时 得 到 解决 ， 从 而 最 大 限度 地 提升 业务 价值 。 
数据 质量 存在 问题 的 原因 归 为 以 下 几 类 : 如 图 6-44 所 示 。 





数据 质量 存在 问题 的 原 





(1) 数据 格式 问题 
例如 ， 数 据 缺 失 、 超 出 数据 范围 、 无 效 数据 
格式 。 

















(2) 数据 一 致 性 问题 
一 些 外 键 或 者 检查 约束 被 去 掉 。 


(3) 业务 逻辑 问题 
数据 库 设计 不 够 严谨 所 致 。 














一 和 多 汉 辑 间 且 | 











图 6-44 ”数据 质量 存在 问题 的 原因 








2. 数据 质量 管理 办 法 和 实施 细则 

数据 质量 管理 办 法 包括 质量 管理 的 工作 方向 和 工作 思路 ， 例 如 数据 质量 问题 的 识别 、 评 
佑 与 处 理 。 明 确 参 与 的 部 门 、 人 员 ， 包 括 在 数据 质量 管理 工作 中 承担 的 角色 和 职责 。 

数据 质量 实施 细则 包括 质量 检查 规范 管理 办 法 ， 明 确 质量 检查 中 的 参与 部 门 以 及 具体 的 
流程 ， 例 如 问题 的 收集 、 更 新 和 终止 。 

3. 数据 质量 管理 范畴 

技术 检查 指标 主要 包括 空 值 检查 、 空 格 检查 、 日 期 字段 检查 、 唯 一 性 检查 和 编码 检查 如 
图 6-45 所 示 等 。 























。 空 值 检查 

判断 字段 值 是 否 为 空 ， 是 否 需 要 赋 默 认 值 。 到 全 本 本 

。 空格 检查 二 

判断 字段 值 是 否 为 空格 ， 是 否 需要 赋 默 认 值 。 下 

。 日 期 字段 检查 

判断 该 字段 是 否 为 合法 的 日 期 ， 是 否 需要 赋 默 认 值 。 一 一 

。 唯一 性 检查 区 

唯一 性 检查 主要 是 针对 业务 唯一 性 的 检查 。 

。 编码 检查 

检查 编码 的 合法 性 。 图 6-45 ”技术 检查 指标 


4. 数据 质量 管理 框架 
数据 质量 管理 框架 如 图 6-46 所 示 ， 主 要 包括 关于 数据 质量 管理 政策 、 组 织 、 流 程 和 技 
术 工 具 。 其 中 管理 政策 包括 数据 质量 管理 方法 、 数 据 质 量 实 施 细则 ， 组 织 包括 数据 质量 角色 
定义 、 数 据 质 量 职责 划分 ， 流 程 包括 数据 质量 事前 防范 、 数 据 质量 事 中 监控 、 数 据 质量 事后 
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改进 ， 技 术 工 具 主 要 包括 数据 质量 管理 系统 。 


数据 质量 


管理 方法 


数据 质量 
数据 质量 事 中 监控 


实施 细则 
数据 质量 


事后 改进 
we 


综 上 所 述 ， 数 据 质 量 概况 如 下 : 

(1) 数据 质量 管理 的 定义 

数据 质量 管理 的 目的 是 提升 数据 的 质量 。 业 务 人 员 通 过 数据 质量 管理 系统 发 现 数据 在 流 
转 过 程 中 存在 哪些 数据 质量 问题 ， 经 过 不 断 修正 ， 使 数据 质量 不 断 得 到 提升 。 

(2) 数据 质量 的 管理 目标 

数据 质量 的 管理 目标 是 提升 数据 的 正确 性 、 一 致 性 和 完整 性 。 通 过 数据 质量 管理 办 法 、 
组 织 、 流 程 ， 发 现 数据 质量 问题 并 且 及 时 得 到 解决 ， 从 而 最 大 限度 地 提升 业务 价值 。 

(3) 产生 数据 质量 问题 的 原因 

数据 质量 问题 的 原因 包括 数据 格式 问题 、 数 据 一 致 性 问题 和 业务 逻辑 问题 等 。 
6.3.2 数据 质量 管理 的 设计 方法 和 流程 

数据 质量 管理 的 设计 方法 和 流程 包括 : 数据 质量 管理 总 体 规 划 、 数 据 质量 管理 的 解决 办 
法 和 数据 质量 管理 的 执行 等 。 

(1) 数据 质量 管理 总 体 规划 

数据 质量 管理 总 体 规划 主要 包括 总 体 规 划 的 指导 原则 、 数 据 质量 管理 基本 制度 及 规范 、 
数据 质量 管理 规范 和 管理 办 法 、 数 据 质量 管理 组 织 和 数据 质量 管控 流程 等 内 容 。 

(2) 数据 质量 管理 的 解决 办 法 

数据 质量 管理 的 解决 办 法 主要 包括 定义 、 发 现 、 分 析 、 反 馈 、 整 改 和 监控 。 

(3) 数据 质量 管理 的 执行 

数据 质量 管理 的 执行 主要 包括 提供 考核 指标 问题 查询 、 相 关 IT 部 门 进行 数据 提升 和 数 
据 质量 管理 人 员 进 行 管理 操作 等 内 容 。 

一 、 数 据 质 量 管理 总 体 规划 

1. 数据 质量 管理 总 体 规划 的 指导 原则 

数据 质量 管理 总 体 规划 的 指导 原则 主要 包括 : 完整 性 原则 、 正 确 性 原则 、 一 致 性 原则 、 
及 时 性 原则 和 适当 性 原则 。 

。 完整 性 原则 
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图 6-46 数据 质量 管理 框架 























所 有 的 信息 、 属 性 是 否 按照 系统 和 业务 规则 完整 填写 。 

e 正确 性 原则 

是 否 准确 地 收集 到 相关 信息 ， 并 如 实在 系统 中 进行 录入 和 处 理 。 

e 一 致 性 原则 

不 同系 统 、 业 务 之 间 关 联 的 数据 是 否 一 致 ， 包 括 一 致 的 定义 、 人 含义、 取 值 及 操作 规 
则 等 。 

e 及 时 性 原则 

数据 是 否 能 够 及 时 地 被 获取 ， 是 否 能 够 反映 当前 业务 运营 状况 ， 以 满足 对 数据 进行 加 
工 、 查 询 和 分 析 的 业务 需求 。 

e 适当 性 原则 

数据 是 否 适当 地 进行 了 发 布 和 使 用 ， 以 确保 数据 的 安全 性 。 

2. 数据 质量 管理 基本 制度 及 规范 

无 论 是 事前 防范 、 事 中 监控 还 是 事后 改进 ， 必 须 遵 循 数 据 质量 管理 制度 和 规范 。 

3. 数据 质量 管控 规范 和 管理 办 法 

对 数据 质量 的 管控 包括 以 业务 需求 为 导向 ， 选 取 对 数据 质量 要 求 最 为 紧迫 的 数据 ， 并 且 
设 定 相 应 的 数据 质量 指标 。 然 后 制定 数据 质量 的 管控 规范 和 管理 办 法 。 

4. 数据 质量 管理 组 织 

数据 质量 管理 组 织 主要 落实 管理 的 组 织 架构 和 相应 的 岗位 职责 ， 从 而 保证 事前 防范 、 事 中 监 
控 和 事后 改进 的 落地 执行 。 当 这 三 个 流程 发 生变 化 的 时 候 ， 可 能 会 调整 相应 的 管理 组 织 架构 。 

数据 质量 管理 组 织 举例 如 下 : 

e 数据 质量 管控 委员 会 

e 数据 质量 主管 

主持 数据 质量 管理 全 面 工作 ， 并 对 数据 质量 管理 的 各 项 工作 结果 负责 。 

e 数据 质量 管理 员 

上 导 相 关 业 务 部 门 和 技术 部 门 对 数据 质量 管理 的 执行 ; 组 织 和 协调 相关 部 门 对 于 

数据 质量 检查 规则 的 制定 ; 保证 数据 质量 管理 建设 方法 顺利 执行 ， 同 时 进行 日 常 

的 监督 和 管理 

数据 质量 管理 组 织 包括 数据 管控 办 公 室 、 数 据 责任 人 和 系统 责任 人 三 个 角色 。 

。 数据 管控 办 公 室 : 数据 质量 主管 和 数据 质量 管理 员 。 

e 数据 责任 人 : 数据 质量 负责 人 、 数 据 录 入 人 员 和 数据 报 送 机 构 。 

。 系统 责任 人 : 数据 质量 负责 人 、 系 统 负责 人 和 系统 运 维 人 员 。 

5. 数据 质量 管控 流程 

数据 质量 管控 流程 主要 包括 事前 防范 、 事 中 监控 、 事 后 改进 。 

(1) 事前 防范 

事前 防范 数据 质量 问题 主要 包括 数据 质量 问题 的 总 结 、 数 据 质量 问题 的 分 析 和 汇总 、 数 
据 质量 防范 方案 规划 、 数 据 质量 防范 方案 评审 、 数 据 质量 防范 方案 实施 和 数据 质量 防范 方案 
最 后 评估 等 内 容 。 

事前 防范 是 对 数据 质量 问题 尽 可 能 地 进行 规避 和 防范 。 数 据 质量 事前 防范 流程 如 
图 6-47 所 示 。 
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问题 总 结 


问题 分 析 


防范 方案 设计 


状态 # 

















图 6-47 数据 质量 事前 防范 


(2) 事 中 监控 

数据 质量 事 中 监控 主要 包括 监控 数据 质量 的 问题 、 问 题 分 析 、 数 据 质量 问题 的 解决 、 重 
新 分 析 数 据 质 量 问题 、 生 成 质量 分 析 报 告 ， 关 于 事 中 监控 的 流程 ， 如 图 6-48 所 示 。 

事 中 监控 的 主要 目的 是 为 了 快速 地 解决 数据 质量 问题 。 























监控 问题 发 现 















(3) 事后 改进 

数据 质量 事后 改进 包括 问题 的 收集 、 质 量 问题 分 析 、 质 量 改 进 方案 设计 、 方 案 审 核 、 方 
案 实施 、 方 案 效果 评估 。 事 后 处 理 数 据 质量 问题 是 对 已 经 存在 的 质量 问题 进行 优化 和 改进 。 
相关 人 员 可 以 包括 数据 质量 管理 员 、 业 务 数据 质量 负责 人 、 技 术 数 据 质量 负责 人 、 数 据 质量 
主管 ， 数 据 质量 事后 改进 流程 ， 如 图 6-49 所 示 。 
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二 、 数 据 质量 管理 的 解决 办 法 
数据 质量 管理 的 解决 办 法 主要 包括 定义 、 发 现 、 分 析 、 反 馈 、 整 改 、 监 控 等 。 


。 定义 
对 数据 质量 问题 进行 分 类 ， 制 定 相关 的 检查 规则 。 
。 发 现 


可 以 使 用 相关 质量 管理 工具 ， 根 据 检 查 规则 去 配置 检查 任务 ， 从 而 发 现 问题 。 

。 分 析 

当 发 现 问题 后 ， 对 问题 进行 分 析 ， 判 断 是 自身 问题 还 是 数据 源 的 问题 。 

e 反馈 

根据 处 理 流程 ， 由 负责 人 将 质量 问题 反馈 至 相关 系统 。 

。 整改 

由 数据 质量 管理 小 组 负责 对 问题 的 修改 。 

e 监控 

数据 质量 管理 系统 对 质量 问题 持续 监控 ， 保 证 数据 
的 正确 性 ， 形 成 一 个 闭环 结构 ， 经 过 不 断 修正 、 循 环 ， 
逐步 提高 数据 的 质量 ， 如 图 6-50 所 示 。 

三 、 数 据 质量 管理 的 执行 

举例 来 说 ， 某 日 ， 某 银行 员工 张 三 发 现 数据 质量 问 
题 ， 并 把 该 问题 记录 下 来 ， 同 时 反馈 到 该 银行 的 IT 部 门 
进行 数据 提升 。 

处 理 过 程 : 由 各 机 构 进 行 结果 反馈 ， 对 于 不 能 提升 
的 数据 ， 由 数据 质量 管理 人 员 进 行 数据 忽略 ， 结 果 体 现 
在 系统 中 ， 如 图 6-51 所 示 。 


























数据 质量 管控 考核 系统 显示 问题 数据 对 一 些 难以 提升 的 数据 ， 进 行 忽略 操作 





图 6-51 数据 质量 管理 的 执行 


总 结 来 说 ， 在 数据 质量 管理 平台 中 建立 数据 质量 监测 体系 ， 使 得 数据 质量 问题 得 到 根本 
解决 ， 最 终 形成 数据 质量 闭环 的 提升 流程 ， 如 图 6-52 所 示 。 
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分 析 结 果 反 馈 到 数据 加 工 环节 





数据 质量 分 析 功 能 数据 加 工 环节 动态 调整 数据 加 工 过 程 


图 6-52 ”建立 数据 质量 监测 体系 














6.4 元 数据 管理 


6.4.1 元 数据 管理 概况 


元 数据 管理 是 管理 企业 的 元 数据 信息 ， 包 括 技术 元 数据 、 业 务 元 数据 和 管理 元 数据 。 元 
数据 管理 的 目标 是 获取 、 理 解 和 共享 企业 的 信息 资产 。 

1. 元 数据 管理 功能 

元 数据 管理 功能 主要 包括 : 

e 元 数据 采集 

实现 业务 元 数据 的 自动 采集 ， 完 成 技术 元 数据 的 自动 匹配 ， 实 现 对 无 法 自动 采集 元 数据 
信息 的 补 录 。 

e 元 数据 查询 

提供 技术 元 数据 、 业 务 元 数据 和 管理 元 数据 的 信息 查询 ， 支 持 对 元 数据 的 统计 。 

e 元 数据 版 本 管理 

自动 对 元 数据 版 本 进行 匹配 ， 提 供 对 元 数据 历史 版 本 的 查询 和 对 比 。 

e 元 数据 分 析 

实现 数据 管理 相关 的 数据 分 布地 图 、 数 据 血 缘分 析 和 影响 性 分 析 等 。 

2. 元 数据 管理 功能 主要 体现 在 以 下 几 个 方面 : 

(1) 元 数据 采集 

1) 配置 元 数据 采集 器 。 

2) 实现 对 业务 元 数据 的 自动 采集 。 

3) 自动 匹配 技术 元 数据 的 关联 性 。 

(2) 元 数据 自动 补 录 

补 录 无 法 自动 获取 的 元 数据 ， 对 元 数据 信息 进行 修改 和 完善 。 

(3) 元 数据 版 本 管理 

1) 对 采集 到 的 元 数据 信息 进行 版 本 比 对 。 

2) 对 发 生变 化 的 元 数据 进行 提醒 。 

3) 文 持 历史 各 个 版 本 元 数据 的 查询 。 

(4) 元 数据 查询 

元 数据 查询 包括 数据 映射 、 加 工 规 则 、 数 据 标准 信息 、 数 据 指标 口径 、 数 据 分 布 等 信 
息 , 如 图 6-53 所 示 。 
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加 工 规则 





数据 映射 








. [®] 了 
© (ps 
数据 分 布 人 数据 指标 口径 


图 6-53 元 数据 查询 


(5) 元 数据 分 析 

元 数据 分 析 主 要 包括 元 数据 血缘 分 析 和 元 数据 影响 性 分 析 。 

1) 元 数据 血缘 分 析 。 当 发 现 报表 中 的 指标 有 问题 的 时 候 ， 可 以 通过 元 数据 的 血缘 分 析 
追溯 到 该 指标 的 下 游 系统 到 上 游 系统 的 转换 流程 中 ， 帮 助 分 析 人 员 了 人 解 该 指标 的 处 理 流程 ， 
为 进一步 定位 问题 提供 帮助 。 血 缘分 析 和 影响 性 分 析 类 似 , 但 是 方向 相反 。 

触发 血缘 分 析 的 方式 : 

中 通过 查询 找到 变化 的 目标 表 ， 经 过 血缘 分 析 ， 发 现 变 化 的 表 是 由 上 游 哪 些 源 引发 的 。 

@) 如 果 在 报表 中 发 现 某 个 指标 有 问题 ， 可 以 进行 血缘 分 析 ， 分析 该 指标 的 数据 加 工 过 
程 ， 了 解 该 指标 出 现 问题 的 原因 。 

2) 元 数据 影响 性 分 析 。 在 数据 处 理 过 程 中 ， 如 果 源 系统 的 表 结 构 或 者 属性 发 生变 化 ， 
需要 通过 元 数据 的 影响 性 分 析 ， 了 解 这 些 变化 会 影响 数据 处 理 流程 中 下 游 的 哪些 表 结 构 或 者 
属性 。 

3. 元 数据 管理 的 几 个 角色 

e 元 数据 管理 者 

主要 负责 元 数据 收集 、 维护 、 录 入 ， 以 及 元 数据 版 本 管理 、 信 息 发 布 等 工作 。 

e 元 数据 消费 者 

包括 对 元 数据 基础 信息 的 查询 、 信 息 分 析 等 。 

元 数据 管理 框架 主要 包括 管理 政策 、 组 织 、 流 程 和 技术 工具 。 其 中 管理 政策 包括 元 数据 
管理 方法 、 元 数据 管理 实施 细则 ; 组 织 包括 元 数据 管理 组 织 架构 、 元 数据 管理 岗位 职责 ; 流 
程 包括 元 数据 申请 、 元 数据 审批 、 元 数据 实施 和 推广 ， 以 及 元 数据 维护 ; 技术 工具 主要 是 元 
数据 管理 系统 ， 如 图 6-54 所 示 。 

4. 数据 标准 和 元 数据 的 对 比 说 明 

1) 从 定义 上 来 说 ， 数 据 标准 是 经 过 相关 机 构 确 认 和 批准 的 规范 性 的 文件 ， 标 准 可 以 保 
障 核心 数据 在 使 用 和 交换 过 程 中 的 一 致 性 和 准确 性 。 元 数据 是 描述 关于 数据 的 数据 ， 包 括 这 
些 数据 的 定义 、 数 据 之 间 的 关系 等 信息 ， 可 以 分 成 业务 元 数据 、 技 术 元 数据 和 管理 元 数据 。 

2) 数据 标准 是 为 了 更 好 地 保障 各 个 部 门 之 间 的 数据 共享 。 而 元 数据 是 对 数据 进行 管 
理 ， 方 便 数据 检索 ， 通 过 元 数据 的 分 析 ， 更 好 地 为 数据 分 析 人 员 服 务 。 
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图 6-54 元 数据 管理 框架 





3) 数据 标准 的 实施 和 落地 需要 业务 部 门 和 技术 部 门 之 间 的 合作 ， 业 务 部 门 参考 数据 标 
准 规范 文档 制定 业务 规则 ， 技 术 部 门 在 系统 的 建设 过 程 中 参考 该 规范 文档 进行 设计 和 开发 。 
元 数据 的 实施 和 落地 通过 元 数据 管理 平台 对 数据 进行 血缘 分 析 和 影响 性 分 析 。 

4) 数据 标准 主要 是 统一 业务 和 技术 定义 ， 目 的 是 消除 企业 内 部 人 员 对 于 业务 和 技术 术 
语 的 分 收 ， 它 是 一 种 规范 性 的 文档 。 元 数据 管理 是 对 数据 结构 的 描述 ， 并 且 提 供 数 据 管理 和 
分 析 的 功能 。 


6.4.2 元 数据 管理 的 设计 方法 和 流程 
元 数据 管理 的 设计 方法 和 流程 主要 包括 元 数据 管理 总 体 规划 、 元 数据 管理 的 解决 办 法 和 
元 数据 管理 的 执行 ， 如 图 6-55 所 示 。 














元 数据 管理 的 设计 方法 和 流程 








(1) 元 数据 管理 总 体 规划 
元 数据 管理 方法 
元 数据 管理 组 织 

元 数据 管控 流程 


(2) 元 数据 管理 的 解决 办 法 
元 数据 采 


元 数据 采集 
元 数据 版 本 控制 
元 数据 查询 
元 数据 分 忆 
(3) 元 数据 管理 的 执行 
举例 如 下 : 业务 系统 升级 、 
对 相关 元 数据 进行 影响 性 分 析 、 
解决 问题 消除 升级 影响 

















图 6-55 元 数据 管理 的 设计 方法 和 流程 





1. 元 数据 管理 总 体 规划 

(1) 元 数据 管理 方法 

元 数据 管理 方法 主要 是 明确 元 数据 管理 的 工作 方向 和 参与 元 数据 管理 的 部 门 。 

(2) 元 数据 管理 组 织 

元 数据 管理 组 织 主要 包括 数据 管控 办 公 室 、 数 据 责任 人 和 系统 责任 人 ， 如 图 6-56 所 示 。 
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元 数据 管理 组 织 











图 6-56 元 数据 管理 组 织 


1) 数据 管控 办 公 室 包括 元 数据 主管 、 元 数据 管理 员 。 
2) 数据 责任 人 包括 元 数据 负责 人 、 数 据 录入 人 员 和 数据 使 用 人 员 。 
3) 系统 责任 人 包括 元 数据 负责 人 和 系统 负责 人 。 
(3) 元 数据 管控 流程 a 
元 数据 管控 流程 包括 元 数据 申请 、 审 批 与 发 布 、 
实施 与 推广 以 及 维护 ， 如 图 6-57 所 示 。 
1) 元 数据 申请 。 首 先 对 业务 元 数据 、 技 术 元 数 
据 进 行 统一 定义 ， 形 成 版 本 。 然 后 进行 元 数据 新 增 、 入 @% 
修改 或 者 删除 的 申请 ， 形 成 元 数据 的 初稿 。 相 关 人 








会 


0 













中 国 市 批 与 发 布 


员 可 以 是 业务 元 数据 负责 人 、 技 术 元 数据 负责 人 等 。 © 
元 数据 申请 流程 主要 包括 元 数据 定义 、 提 交 申请 、 ee 


元 数据 导入 ， 如 图 6-58 所 示 。 图 6-57 元 数据 管控 流程 


业务 元 数 
/vv 。 0 外] 并 负责 人 
二 提交 申请 
技术 元 数 
县 。 6 人 据 负 责 人 


元 数据 导入 





6-58 ”元 数据 申请 流程 


2) 审批 与 发 布 。 审 批 与 发 布 的 流程 包括 : 对 元 数据 进行 分 析 、 元 数据 审核 和 元 数据 发 
布 。 通 过 技术 元 数据 获取 数据 的 血缘 关系 ， 通 过 业务 元 数据 获取 相关 业务 文档 ， 通 过 对 元 数 
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据 的 审核 与 发 布 确保 元 数据 的 真实 性 和 完整 性 。 一 般 来 说 ， 元 数据 主管 进行 审核 ， 元 数据 管 
理 员 发 布 元 数据 。 
元 数据 审批 与 发 布 流程 如 图 6-59 所 示 。 


元 数据 管理 员 元 数据 主管 元 数据 管理 员 











对 元 数据 进行 分 析 元 数据 审核 




















图 6-59 ”元 数据 管理 审批 与 发 布 流程 




















。 对 元 数据 进行 分 析 

角色 是 元 数据 管理 员 。 

。 元 数据 审核 

角色 是 元 数据 主管 。 

® 元 数据 发 布 

角色 是 元 数据 管理 员 。 

3) 实施 与 推广 。 元 数据 的 实施 与 推广 是 将 元 数据 录入 到 管理 平台 进行 实施 和 推广 。 相 
关 人 员 可 以 包括 元 数据 管理 员 、 数 据 使 用 人 员 、 系 统 负 责 人 、 数 据 录 入 人 员 等 。 

元 数据 实施 与 推广 流程 主要 包括 元 数据 查询 、 元 数据 使 用 和 元 数据 反馈 。 

。 元 数据 查询 

包括 数据 使 用 人 员 、 系 统 负 责 人 、 数 据 录 入 人 员 、 数 据 报 送 机 构 。 

。 元 数据 使 用 

包括 数据 使 用 人 员 、 系 统 负 责 人 、 数 据 录 入 人 员 、 数 据 报 送 机 构 。 

。 元 数据 反馈 

包括 元 数据 管理 员 。 

4) 维护 。 元 数据 维护 流程 包括 : 元 数据 的 评估 规划 、 元 数据 评估 和 元 数据 的 变更 。 

例如 ， 首 先 对 元 数据 的 使 用 情况 进行 评 佑 ， 监 测 元 数据 在 系统 中 的 使 用 情况 ， 考 察 相关 
的 实施 结果 ， 提 交 使 用 分 析 报告 ， 对 相关 情况 进行 总 结 。 

然后 提出 更 正 或 者 注销 申请 ， 及 时 更 正 元 数据 内 容 ， 最 后 形成 团 环 的 元 数据 管理 流程 。 
相关 人 员 可 以 包括 元 数据 管理 员 、 业 务 元 数据 负责 人 和 技术 元 数据 负责 人 。 

e 元 数据 的 评估 规划 

包括 元 数据 管理 员 。 

。 元 数据 评估 

包括 业务 元 数据 负责 人 和 技术 元 数据 负责 人 。 

。 元 数据 的 变更 

包括 业务 元 数据 负责 人 和 技术 元 数据 负责 人 。 
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2. 元 数据 管理 的 解决 方法 

元 数据 管理 的 主要 目的 是 为 数据 的 有 效 利 用 提供 全 面 的 指导 。 通 过 元 数据 管理 ， 可 以 建 
立 数 据 的 统一 视图 和 统一 口径 ,确保 数据 的 完整 性 、 准 确 性 、 一 致 性 。 

元 数据 管理 功能 包括 元 数据 采集 、 元 数据 版 本 控制 、 元 数据 查询 、 元 数据 分 析 ， 如 
图 6-60 所 示 。 











1) 元 数据 的 采集 。 采 集 的 内 容 包 a 
括 : 技术 元 数据 ， 如 ETL 映射 关系 ， 数 @ 
据 结构 ， 数 据 字 典 等 内 容 ， 业 务 元 数据 ， 合 


如 代码 标准 、 指 标 标准 等 信息 。 如 果 无 
法 自动 采集 元 数据 信息 ， 则 进行 信息 的 
补 录 ， 或 者 对 元 数据 信息 进行 修改 和 







元 数据 分 析 @ 四 办 eit 

















调整 
2) 对 元 数据 版 本 进行 管理 。 对 于 采 县 

集 的 元 数据 信息 进行 版 本 对 比 ， 对 于 发 © 

生变 化 的 元 数据 进行 提醒 ， 并 且 保留 每 下 所 在 

个 历史 版 本 的 元 数据 信息 。 6-60 元 数据 管理 功能 


3) 元 数据 查询 可 以 提供 对 技术 元 数据 和 业务 元 数据 的 信息 查询 。 

4) 支持 对 元 数据 的 统计 分 析 。 例 如 ， 实 现 数据 血缘 分 析 和 影响 性 分 析 。 

3. 元 数据 管理 的 执行 

对 于 元 数据 管理 的 业务 场景 之 一 ， 举 例如 下 : 因 业 务 升级 ， 存 “XXX 表 ” 中 增加 了 科 
目 YYY， 需 要 找到 本 次 升级 后 对 相关 系统 的 影响 。 

处 理 结果 如 下 : 例如 ， 对 元 数据 “XXX 表 ” 进 行 影响 性 分 析 ， 发 现 对 ODS、 报 表 指 标 
都 有 影响 。 

它 的 过 程 如 图 6-61 所 示 ， 在 业务 系统 升级 的 时 候 ， 对 相关 元 数据 进行 影响 性 分 析 ， 最 
后 解决 问题 ， 消 除 升 级 影响 。 





除 升级 影响 














图 6-61 元 数据 管理 的 执行 过 程 一 


对 于 元 数据 管理 的 业务 场景 之 二 ， 举 例如 下 : 某 报表 系统 运 维 人 员 李 四 发 现 余额 中 的 
“金额 ”结果 异常 ， 因 此 ， 把 问题 反馈 给 元 数据 管理 系统 的 高 级 分 析 员 。 
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处 理 过 程 ， 由 高 级 分 析 员 登录 到 元 数据 管理 系统 ， 对 报表 系统 余额 中 的 “金额 ”进行 
血缘 分 析 ， 然 后 再 对 问题 进行 定位 。 

总 结 来 说 ， 元 数据 管理 平台 在 业务 层面 上 帮助 业务 人 员 了 解数 据 的 定义 ， 辅 助 数据 标准 
的 建设 ， 解 决 业 务 定 义 不 一 致 的 问题 ， 同 时 也 帮助 技术 人 员 了 解数 据 来 源 和 数据 加 工 规则 ， 
从 而 有 效 地 提升 开发 效率 ， 降 低 数据 的 复杂 性 ， 解 决 数据 的 冲突 问题 。 通 过 分 析 数 据 的 血缘 
影响 ， 找 出 问题 产生 的 原因 和 影响 范围 。 

















6.5 数据 生命 周期 管理 


6.5.1 数据 生命 周期 管理 概况 

一 、 什 么 是 数据 生命 周期 管理 

数据 生命 周期 管理 是 对 数据 进行 统一 管理 ， 目 的 是 降低 数据 的 存储 压力 。 一 般 来 说 ， 数 
据 生 命 周 期 管理 包括 数据 创建 、 数 据 使 用 、 数 据 归档 和 数据 销毁 ， 如 图 6-62 所 示 。 


















































数据 创建 .A 数据 使 用 
通过 遵守 数据 标准 体系 规则 E 通过 元 数据 管理 监控 数据 
保证 数据 创建 的 准确 性 的 使 用 ， 利 用 数据 标准 和 
数据 质量 管理 保证 数据 加 
1 工 的 准确 性 
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数据 归档 . 数据 销 筑 

目的 是 将 一 部 分 不 常用 的 历 通过 对 数据 的 评估 ， 将 一 

史 数据 进行 归档 ， 降 低 数 据 部 分 数据 彻底 销毁 ， 降 低 

的 存储 压力 系统 的 存储 压力 

图 6-62 ”数据 生命 周期 包含 的 内 容 
。 数 据 创建 
通过 遵守 数据 标准 体系 规则 保证 数据 创建 的 准确 性 。 
。 数 据 使 用 
通过 元 数据 管理 监控 数据 的 使 用 ， 利 用 数据 标准 和 数据 质量 管理 保证 数据 加 工 的 准 
确 性 。 

e 数据 归档 
目的 是 将 一 部 分 不 常用 的 历史 数据 进行 归档 ， 降 低 数 据 的 存储 压力 。 
e 数据 销毁 


通过 对 数据 的 评估 ， 将 一 部 分 数据 彻底 销毁 ， 降 低 系统 的 存储 压力 。 

二 、 数 据 生 命 周 期 管理 框架 

数据 生命 周期 管理 框架 主要 包括 数据 生命 周期 的 管理 政策 、 组 织 、 流 程 和 技术 工具 ， 如 
图 6-63 所 示 。 

。 管理 政策 

包括 数据 生命 周期 管理 办 法 、 数 据 生命 周期 管理 实施 细则 。 
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e 组 织 

包括 数据 生命 周期 管理 角色 定义 、 数 据 生命 周期 管理 角色 责任 。 

e 流程 

包括 数据 生命 周期 管理 方案 规则 、 数 据 生命 周期 管理 方案 实施 和 对 具体 问题 的 解决 。 
e 技术 工具 

包括 数据 生命 周期 管理 系统 。 





数据 生命 周期 
管理 方案 规划 


数据 生命 周期 
管理 方案 实施 


对 具体 问题 的 
解决 














图 6-63 ”数据 生命 周期 管理 框架 








6.5.2 数据 生命 周期 管理 的 设计 方法 和 流程 


数据 生命 周期 管理 的 设计 方法 和 流程 包括 : 数据 生命 周期 管理 总 体 规划 、 数 据 生命 周期 
管理 的 解决 办 法 和 数据 生命 周期 管理 的 执行 ， 如 图 6-64 所 示 。 


数据 生命 周期 管理 的 设计 方法 和 流程 


(1) 数据 生命 周期 管理 总 体 规划 
数据 生命 周期 管理 规范 及 管理 办 法 
数据 生命 周期 管理 组 织 
数据 生命 周期 管控 流程 














(2) 数据 生命 周期 管理 的 解决 办 法 





























(3) 数据 生命 周期 管理 的 执行 
包括 数据 生成 周期 的 所 有 阶段 ， 必 须 按照 组 织 业 
务 的 需要 进行 存储 ， 保 护 数据 ， 以 提供 数据 访问 














图 6-64 数据 生命 周期 管理 的 设计 方法 和 流程 


1. 数据 生命 周期 管理 总 体 规划 
(1) 数据 生命 周期 管理 规范 及 管理 办 法 
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数据 生命 周期 管理 规范 及 管理 办 法 包括 相关 制度 规范 和 管理 办 法 。 

e 规范 制度 

明确 数据 生命 周期 管理 的 组 织 体系 。 明 确 各 组 织 在 数据 生命 周期 管理 工作 中 应 该 承担 的 
角色 与 职责 。 明 确 数据 生命 周期 划分 阶段 。 

e 管理 办 法 

确定 数据 生命 周期 的 组 织 机 构 和 各 组 织 应 该 承担 的 工作 职 

(2) 数据 生命 周期 管理 组 织 

数据 生命 周期 管理 组 织 包括 数据 管控 办 公 室 、 数 据 责任 人 和 系统 责任 人 ， 如 图 6-65 
所 示 。 



































图 6-65 数据 生命 周期 管理 组 织 





。 数据 管控 办 公 室 
主要 包括 数据 生命 周期 主管 、 数 据 生 命 周 期 管理 员 。 
。 数据 责任 人 
主要 包括 数据 生命 周期 负责 人 。 
。 系统 责任 人 
主要 包括 数据 生命 周期 负责 人 、 系 统 负责 人 和 系统 运 维 人 员 。 
其 中 数据 生命 周期 管理 组 乡 的 角色 主要 有 两 种 ， 数据 生命 周期 主管 和 数据 生命 周期 管理 
如 图 6-66 所 示 。 
(3) 数据 生命 周期 管控 流程 
数据 生命 周期 管控 流程 包括 数据 生命 周期 管理 方案 规划 、 数 据 生命 周期 管理 方法 实施 和 
落地 、 对 具体 问题 的 解决 ， 如 图 6-67 所 示 。 
e。 数据 生命 周期 管理 方案 规划 
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数据 生命 周期 主管 数据 生命 周期 管理 员 


























主持 数据 生命 周期 管理 完善 数据 生命 周期 管理 
全 面 工 作 ， 对 数据 生命 规范 ， 按 照 数据 生命 周 
周期 管理 和 各 项 工作 结 期 管理 方法 对 数据 进行 
果 负 责 评估 ， 负 责 数据 生命 周 


期 管理 
































图 6-66 数据 生命 周期 管理 组 织 角色 








数据 生命 周 # 对 具体 问题 的 
管理 方案 规划 解决 


数据 生命 周期 
管理 方法 实施 
和 落地 











图 6-67 数据 生命 周期 管控 流程 








数据 生命 周期 管理 规划 是 由 企业 的 业务 人 员 和 相关 系统 运 维 人 员 提 交 数 据 生命 周期 的 需 
求 ， 再 由 管理 人 员 设计 并 制定 数据 生命 周期 的 管理 策略 。 与 数据 生命 周期 管理 相关 的 人 员 包 
括 数据 生命 周期 负责 人 、 系 统 运 维 人 员 、 数 据 生命 周 期 管理 员 、 数 据 生命 周期 主管 等 。 

。 数据 生命 5 周期 管理 方法 实施 和 落地 

数据 生命 周期 管理 方法 实施 和 落地 的 相关 人 员 主 要 包括 : 系统 负责 人 、 系 统 运 维 人 员 、 
数据 生命 周期 管理 员 等 ， 职 责 是 实施 数据 生命 周期 管理 方案 ,评估 方案 的 优 劣 等 内 容 。 

。 对 具体 问题 的 解决 

具体 问题 的 解决 流程 是 针对 出 现 的 问题 进行 分 析 ， 如 存储 问题 ， 然 后 提出 具体 解决 办 
法 ， 制 定数 据 生命 周期 管理 方案 ， 当 审核 通过 后 执行 该 管理 方案 。 例 如 ， 由 数据 生命 周期 管 
理 员 组 织 相关 人 员 实 施 或 评估 数据 生命 周期 的 管理 策略 ， 人 员 可 以 包括 系统 运 维 人 员 、 业务 
数据 生命 周期 负责 人 、 数 据 生命 周期 管理 员 、 技 术 数 据 生命 周期 负责 人 人、 数据 生命 周期 主 
管 等 。 

数据 生命 周期 管理 具体 问题 的 解决 流程 主要 包括 申请 、 制 定 方案 、 审 核 、 执 行 和 变更 管 
理 方案 

2: 数据 生命 证 周期 管理 的 解决 方法 

数据 生命 周期 管理 涉及 数据 从 开始 创建 一 直到 失去 商业 价值 ， 最 后 按照 规定 被 删除 的 过 
程 。 一 般 来 说 ， 它 有 如 下 几 个 过 程 : 数据 创建 、 数 据 使 用 、 数 据 归 档 和 数据 销毁 。 
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3. 数据 生命 周期 管理 的 执行 

数据 生命 周期 的 所 有 阶段 ， 按 照 业务 需求 存储 数据 ， 以 及 提供 数据 的 访问 。 数 据 生命 周 
期 的 每 一 阶段 ， 根 据 数据 的 价值 ， 存 在 不 同 层次 的 性 能 、 可 用 性 、 保 护 和 处 理 。 这 样 保 证 数 
据 的 可 用 性 ， 也 充分 满足 业务 的 需求 。 

在 数据 生命 周期 的 各 个 阶段 ， 初 始 数 据 的 生成 需要 高 速 地 进行 存储 ， 并 且 提 供 相 应 的 保 
护 措施 ， 已 达到 高 可 用 性 。 但 是 随 着 时 间 的 推移 ， 数 据 的 重要 性 会 逐渐 降低 ， 使 用 频率 也 会 
下 降 。 根 据 这 些 变 化 ， 数 据 的 存储 、 可 用 性 、 性 能 和 保护 措施 在 力度 上 也 随 着 发 生变 化 。 

总 结 来 说 ， 通 过 建设 数据 生命 周期 管理 系统 ， 规 范 数据 存储 以 及 数据 生命 周期 管理 ， 提 
高 系统 运行 的 效率 ， 为 生命 周期 规范 提供 支撑 。 协 助 各 个 业务 系统 实现 统一 的 数据 归档 管 
理 ， 降 低 业务 系 统 的 复杂 度 ， 缩 短 业 务 系统 建设 的 周期 ， 避 免 因为 系统 重复 开发 而 造成 的 资 
源 浪费 ， 节 省 各 个 业务 系统 的 资源 。 实 现 更 快 、 更 方便 的 数据 备份 、 恢 复 和 升级 ， 减 少 系 统 
停机 的 时 间 。 将 不 经 常 使 用 的 数据 转移 到 存档 的 基础 设施 中 ， 以 降低 物理 存储 总 量 ， 节 省 硬 
件 和 维护 成 本 。 




















小 结 





。 一 般 来 说 ， 数 据 是 企业 的 原始 材料 ， 也 是 金融 、 电 信 、 互 联网 等 行业 最 大 的 价值 来 源 
之 一 ， 如 何 利 用 这 些 数据 ， 以 及 如 何 更 好 地 对 数据 进行 挖掘 和 利用 ， 已 经 成 为 提高 企 
业 苋 争 力 最 重要 的 手段 之 一 。 

。 数据 治理 是 一 套 包含 策略 、 原 则 、 组 织 结构 、 管 理 制度 、 流 程 以 及 各 种 相关 技术 工具 
的 管理 框架 。 数 据 治理 是 对 数据 管理 与 应 用 行使 权力 和 控制 的 活动 集合 ， 在 数据 管理 
与 应 用 层面 上 进行 规划 、 监 督 和 控制 ， 数 据 治 理 为 数据 管理 、 数 据 应 用 与 服务 提供 
保障 。 

。 数据 治理 可 以 看 做 是 一 门 新 的 学 科 ， 能 够 把 企业 的 独立 系统 结合 起 来 ， 重 新 定义 数据 
的 价值 和 保护 机 制 。 从 技术 上 来 讲 ， 数 据 治理 是 从 OLTP 系统 到 后 人 台 业 务 数据 库 ， 再 
回 到 前 端的 一 个 闭环 的 过 程 。 

e 一 般 来 说 ， 数 据 治 理 可 以 分 成 两 个 部 分 : 

1) 数据 的 保障 机 制 ， 包 括 政策 的 制定 ， 考 虑 使 用 何 种 机 制 、 流 程 和 工具 去 保障 数据 的 

规范 性 。 

2) 需要 考虑 数据 的 质量 标准 和 数据 质量 的 任 责 体系 。 数 据 治理 是 企业 的 责任 ， 需 要 统 

一 的 解决 方案 和 治理 模型 来 保护 及 共享 不 同 层面 的 数据 。 

。 数据 治理 建设 的 关键 要 素 : 以 数据 标准 为 基础 、 以 提高 数据 质量 为 核心 、 明 确 数据 治 
理 的 职责 。 

。 对 于 数据 治理 体系 的 框架 结构 ， 可 以 包括 规划 、 机 制 、 治 理 对 象 和 实现 4 个 部 分 。 

e。 数据 治理 是 保障 企业 和 商业 银行 安全 、 稳 定 运 营 的 必要 条 件 ， 特 别 是 对 商业 银行 来 
说 ， 如 何 避 免 数据 的 泄露 、 竹 改 ， 保 证 数据 的 一 致 性 和 完整 性 ， 这 才 是 实现 商业 银行 
业务 连续 性 的 关键 。 

。 数据 治理 对 商业 银行 等 金融 机 构 尤 为 重要 : 数据 作为 商业 银行 或 者 企业 的 重要 资产 ， 
相当 于 人 体 的 血液 一 样 ， 是 非常 重要 的 。 高 质量 的 数据 ， 有 利于 管理 决策 层 做 出 准确 
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的 分 析 。 数 据 治理 有 利于 保护 核心 的 业务 数据 。 

。 数据 标准 是 一 套 完 整 的 数据 规范 ， 是 数据 在 使 用 和 交换 过 程 中 ， 为 了 保持 数据 一 致 性 
和 准确 性 而 制定 的 规范 ， 它 主要 包括 数据 分 类 、 业 务 标准 和 技术 标准 的 详细 定义 。 数 
据 标准 是 数据 治理 中 基本 的 业务 和 技术 层面 的 保障 。 

。 数据 标准 的 体系 框架 可 以 包括 : 文化 和 战略 ， 数 据 标准 内 容 ， 数 据 标准 制度 和 流程 ， 
数据 标准 的 组 织 和 角色 ， 数 据 标准 工具 。 

。 数据 标准 体系 建设 的 规划 方法 可 以 遵循 业界 先进 的 方法 ， 通 过 调研 、 规 划 访 谈 、 数 
据 标 准 现状 分 析 ， 了 解 业务 部 门 对 数据 标准 的 期 待 ， 确 认 业务 部 门 对 数据 标准 的 想 
法 ， 将 对 数据 标准 的 需求 转化 成 业务 人 员 可 以 理解 的 文档 ， 建 立 数据 标准 管理 相关 
的 治理 架构 和 管理 流程 ， 同 时 建立 企业 对 数据 标准 管理 的 共识 和 实施 路 线 图 。 

e。 数据 标准 规划 的 过 程 如 下 所 示 : 对 现 有 系统 的 数据 标准 进行 梳理 ; 建立 公共 代码 的 数 
据 标准 ;通过 公共 代码 数据 标准 的 建立 ， 为 系统 提供 服务 。 

。 数据 质量 管理 可 以 通过 提高 管理 水 平 ， 严 格 执行 相关 的 政策 和 规范 ， 或 者 使 用 一 些 技 
术 工 具 ， 使 得 数据 质量 得 到 进一步 的 提升 。 对 于 质量 管理 来 说 ， 它 是 一 个 闭环 的 管理 
过 程 ， 经 过 不 断 循 环 、 改 善 ， 逐 步 提高 数据 的 质量 ， 并 最 终 为 企业 记得 经 济 效益 。 

。 数据 质量 管理 的 设计 方法 和 流程 包括 数据 质量 管理 总 体 规划 、 数 据 质量 管理 的 解决 办 
法 、 数 据 质量 管理 的 执行 等 。 

。 在 数据 质量 管理 平台 中 建立 数据 质量 监测 体系 ， 使 得 数据 质量 问题 得 到 根本 解决 ， 最 
终 形成 数据 质量 闭环 的 提升 流程 。 

。 元 数据 管理 是 管理 企业 的 元 数据 信息 ， 包 括 技术 元 数据 、 业 务 元 数据 和 管理 元 数据 。 
元 数据 管理 的 目标 是 获取 、 理 解 和 共享 企业 的 信息 资产 。 

e。 元 数据 管理 功能 主要 体现 以 下 几 个 方面 : 

1) 元 数据 采集 (配置 元 数据 采集 器 ; 实现 对 业务 元 数据 的 自动 采集 ; 自动 匹配 技术 元 






























































数据 的 关联 性 ) 。 








2) 元 数据 自动 补 录 〈 补 录 无 法 自动 获取 的 元 数据 ， 对 元 数据 信息 进行 修改 和 完善 ) 。 
3) 元 数据 版 本 管理 (对 采集 到 的 元 数据 信息 进行 版 本 比 对 ; 对 发 生变 化 的 元 数据 进行 


提醒 ;支持 历史 各 个 版 本 元 数据 的 查询 ) 。 





4) 元 数据 查询 ， 包 括 数据 映射 、 加 工 规则 、 数 据 标准 信息 、 数 据 指标 口径 、 数据 分 布 


等 信息 。 


5) 元 数据 分 析 ， 包 括 元 数据 血缘 分 析 和 元 数据 影响 性 分 析 。 

。 元 数据 管理 平台 在 业务 层面 上 帮助 业务 人 员 了 解数 据 的 定义 ， 辅 助 数据 标准 的 建设 ， 
解决 业务 定义 不 一 致 的 问题 ， 同 时 也 帮助 技术 人 员 了 解数 据 来 源 和 数据 加 工 规则 ， 从 
而 有 效 地 提升 开发 效率 ， 降 低 数 据 的 复杂 性 ， 解 决 数据 的 冲突 问题 。 通 过 分 析 数 据 的 
血缘 和 影响 ， 找 出 问题 产生 的 原因 和 影响 范围 。 
。 数据 生命 周期 管理 是 对 数据 进行 统一 管理 ， 目 的 是 降低 数据 的 存储 压力 。 一 般 来 说 ， 
数据 生命 周期 管理 包括 : 数据 创建 、 数 据 使 用 、 数 据 归档 和 数据 销毁 。 

。 数据 生命 周期 管理 总 体 规划 包括 : 

1) 数据 生命 周期 管理 规范 及 管理 办 法 。 

2) 数据 生命 周期 管理 组 织 。 
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3) 数据 生命 周期 管控 流程 。 

。 数据 生命 周期 的 所 有 阶段 ， 企 业 按照 业务 需求 存储 数据 ， 以 及 提供 数据 的 访问 。 数 据 
生命 周期 的 每 一 阶段 ， 根 据 数据 的 价值 ， 存 在 不 同 层次 的 性 能 、 可 用 性 、 保 护 和 处 
理 。 这 样 才 能 保证 数据 的 可 用 性 ， 也 充分 满足 业务 的 需求 。 

。 通过 建设 数据 生命 周期 管理 系统 ， 规 范 数据 存储 以 及 数据 生命 周期 管理 ， 提 高 系统 运 
行 的 效率 ， 为 生命 周期 规范 提供 支撑 。 协 助 各 个 业务 系统 实现 统一 的 数据 归档 管理 ， 
降低 业务 系统 的 复杂 度 ， 缩 短 业 务 系统 建设 的 周期 ， 避 免 因 为 系统 重复 开发 而 造成 的 
资源 浪费 ， 节 省 各 个 业务 系统 的 资源 。 实 现 更 快 、 更 方便 的 数据 备份 、 恢 复 和 升级 ， 
减少 系统 停机 的 时 间 。 将 不 经 常 使 用 的 数据 转移 到 存档 的 基础 设施 中 ， 以 降低 物理 存 
储 总 量 ， 节 省 硬件 和 维护 成 本 。 














本 章 目 标 
通过 前 儿童 的 学 习 , 我 们 了 解 了 数据 架构 、 大 数据 和 数据 治理 相关 的 知识 和 案例 。 很 多 
企业 已 经 充分 认识 到 数据 是 核心 资产 和 竞争 力 。 同 时 为 了 提高 企业 的 运营 效率 ， 增 加 企业 的 
竞争 力 和 领导 者 的 决策 能 力 ， 系 统 应 该 适应 多 渠道 数据 采集 的 能 力 ， 形 成 汇总 功能 型 的 视 
图 。 增 强 历史 与 趋势 分 析 能 力 ， 这 就 需要 I 人 员 理 解 商 业 智能 方面 的 知识 。 

学 习 本 章 后， 读者 将 掌握 : 

。 商业 智能 的 历史 

e 商业 智能 的 定义 

。 商业 智能 的 功能 

。 商业 智能 的 发 展 趋势 

。 商业 智能 的 实施 方法 和 步骤 

e 关于 商业 智能 的 核心 技术 

e 数据 仓库 理论 

e 数据 仓库 的 特点 

e 数据 挖掘 和 分 析 

e ETL 处 理 技术 

。 数据 集 市 理论 

e 数据 集 市 产生 原因 

e 数据 集 市 的 定义 

e 数据 集 市 和 数据 仓库 的 联系 和 区 别 

e 可 视 化 分 析 

e 大 数据 技术 

e ODS 理论 

e OLAP 系统 与 OLTP 系统 的 区 别 

e OLAP 的 实现 方法 

e OLAP 模型 的 设计 与 实现 


7.1 商业 智能 概述 
































7.1.1 商业 智能 的 历史 
e 1970 年 ，IBM 公司 的 研究 员 埃 德 加 . 科 德 发 明了 关系 型 数据 库 。 
e 1979 年 , Teradata 公司 诞生 。1983 年 ， 该 公司 利用 并 行 处 理 技 术 为 美国 富国 银行 建立 
了 第 一 个 决策 支持 系统 。 
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e 1988 年 , IBM 公司 的 研究 员 提 出 一 个 新 的 概念 : 数据 仓库 。 
e 1992 年 ， 比 尔 . 恩 门 出 版 了 《如 何 构 建 数 据 仓库 》 一 书 ， 数 据 仓库 真正 拉 开 了 应 用 

















的 序幕 。 
。 1993 年 ， 拉 和 尔 夫 ' 金 博 尔 出 版 了 《数据 仓库 的 工具 》 一 书 ， 并 把 部 门 的 数据 仓库 叫 
做 “数据 集 市 ”。 


7.1.2 商业 智能 的 定义 


从 全 球 范围 来 看 ， 商 业 智 能 已 经 成 为 目前 最 具有 发 展 前 景 的 IT 领域 之 一 。 

曾经 看 过 这 样 一 个 例子 ， 美 国 某 超 市 有 一 个 系统 : 当 你 采购 了 一 车 的 物品 准备 结账 时 ， 
美丽 的 收银 员 小 姐 扫 完了 你 的 所 有 物品 后 ， 计 算 机 会 显示 出 一 些 信息 ， 然 后 收银 员 小 姐 会 友 
好 地 问 你 :“ 我 们 有 一 种 一 次 性 纸杯 正在 促销 ， 位 于 xx 货架 上 ， 您 要 购买 吗 ?” 结 果 你 非常 
惊奇 地 说 :“ 啊 ， 谢 谢 你 ! 我 刚才 一 直 没 有 找到 纸杯 。 ”那么 计算 机 系统 如 何 知道 的 ? 秘密 
在 于 当 系 统 知道 你 的 购物 车 里 面 有 餐巾纸 、 大 瓶 可 乐 和 沙拉 的 时 候 ， 则 会 计算 出 你 买 一 次 性 
纸杯 的 可 能 性 在 80% 以 上 。 这 就 是 商业 智能 的 一 个 简单 应 用 。 

再 举 一 个 例子 ， 智 能 手机 可 以 内 骨 全 球 卫 星 定位 系统 ， 通 过 该 系统 ,我们 可 以 找到 最 近 
的 银行 网 点 ， 并 且 可 以 预约 排队 。 同 时 银行 可 以 分 析出 客户 的 喜好 ， 向 客户 推送 附近 可 以 刷 
卡 打折 购物 的 信息 ， 客 户 也 可 以 享受 到 各 种 实用 的 银行 服务 。 换 句 话 说， 银行 可 以 利用 商业 
智能 为 我 们 提供 各 种 智能 化 和 个 性 化 的 服务 ， 如 图 7-1 所 示 。 









































7-1 商业 智能 提供 各 种 智能 化 和 个 性 化 的 服务 


当然 ， 商 业 智能 的 作用 绝 不 仅 限于 此 。 从 小 型 的 超市 系统 到 国家 银行 、 航 空 、 水 利 、 电 
力 、 铁 路 运输 等 大 型 系统 ， 商 业 智能 的 应 用 无 处 不 在 。 如 果 我 们 对 商业 智能 做 一 个 简单 的 定 
义 ， 那 就 是 : 帮助 用 户 把 一 些 数据 转化 成 具有 商业 价值 的 ， 而 且 可 以 获取 的 信息 和 知识 ， 同 
时 在 最 恰当 的 时 候 ， 通 过 某 种 方式 把 信息 传递 给 需要 的 人 。 从 专业 的 角度 来 说 ， 商 业 智能 就 
是 利用 数据 仓库 、 数 据 分 析 和 挖掘 技术 ， 以 抽取 、 转 换 、 查 询 、 分 析 和 预测 为 主 的 技术 手 
段 ， 帮 助 企 业 完成 决策 分 析 的 一 套 解决 方 案 。 

在 上 面 的 例子 中 ,计算 机 系统 把 餐巾 纸 、 大 瓶 可 乐 、 沙 拉 等 商品 信息 转化 成 具有 商业 价 
值 的 信息 〈 知 识 ) ， 同 时 在 恰当 的 时 候 把 顾客 需要 一 次 性 纸杯 的 信息 告诉 收银 员 。 商 业 智能 
的 价值 体现 在 将 数据 转化 成 信息 和 知识 ， 最 后 转化 成 利润 ， 如 图 7-2 所 示 。 

很 多 企业 在 经 过 多 年 的 业务 系统 的 运行 之 后 ， 已 经 拥有 了 大 量 的 经 营 数据 ， 那 么 如 何 将 
这 些 宝贵 的 数据 财富 转化 成 信息 、 知 识 并 传递 给 企业 管理 考 呢 ? 这 就 是 商业 智能 需要 研究 和 
完成 的 工作 。 
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图 7-2 商业 智能 的 价值 


商业 智能 好 像 一 个 采矿 加 工场 ， 它 负责 采集 大 量 的 矿石 ， 然 后 经 过 进一步 的 分 离 、 加 工 
等 操作 ， 最 后 提炼 出 高 纯度 的 精 矿 ， 如 图 7-3 所 示 。 其 实 企 业经 营 和 管理 的 数据 就 是 这 些 
“矿石 ” ， 而 商业 智能 的 作用 就 是 将 这 些 “ 矿 石 ”转化 成 “ 精 矿 ”。 





图 7-3 采矿 加 工场 





商业 智能 对 企业 的 重要 性 是 不 言 而 喻 的 ， 它 可 以 提高 企业 的 运营 效率 ， 增 加 竞争 力 和 领 
导 决 策 能 力 ， 从 而 获得 更 大 的 市 场 ， 提 高 企业 的 利润 。 同 时 也 为 公司 的 管理 人 员 提 供 一 种 全 
新 的 思维 方式 ， 通 过 使 用 这 些 宝贵 的 数据 资产 进行 挖 握 和 分 析 ， 发 现 内 部 潜在 的 规律 和 趋 
势 ， 这 样 才能 做 出 准确 的 判断 ， 制 定 出 正确 的 决策 方针 。 此 外 ， 还 优化 了 企业 内 部 组 织 结 
构 ， 增 强 了 企业 资源 的 合理 配置 ， 使 企业 在 竞争 中 处 于 不 败 之 地 。 


7.1.3 商业 智能 的 功能 介绍 


商业 智能 最 早出 现在 20 世纪 90 年 代 ， 当 时 的 主要 功能 是 查询 报表 、 数 据 分 析 、 数 据 备 
份 和 恢复 等 ， 但 随 着 技术 的 发 展 和 应 
用 的 拓展 ， 商 业 智 能 已 经 扩展 了 其 他 
的 功能 ， 如 图 7-4 所 示 。 知识 发 现 功 能 
(1) 数据 读 取 功能 
除了 读 取 结构 化 数据 ， 还 可 以 读 ”红色 预警 功能 
取 非 结构 化 数据 和 半 结 构 化 数据 。 
(2) 报表 展示 功能 
例如 ， 利 用 报表 工具 ( Cognos、 图 7-4 商业 智能 的 功能 介绍 
BO 等 ) 的 可 视 化 功能 将 数据 呈现 给 用 户 ， 呈 现 的 形式 包括 : 交叉 报表 、 饼 图 、 柱 状 图 、 散 
点 图 、 线 图 、 直 方 图 。 其 中 柱状 图 示例 如 图 7-5 所 示 。 还 可 以 通过 向 下 钻 取 、 数 据 切片 和 
旋转 以 及 交互 式 的 图 形 分 析 能 力 ， 使 用 户 能 够 从 任何 角度 去 观察 业务 。 













数据 读 取 功 能 





报表 展示 功能 


数据 分 析 挖 气功 能 
数据 管理 功能 
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(3) 数据 分 析 挖掘 功能 
通过 业务 之 间 的 关联 关系 ， 去 探究 事物 发 生 的 概率 。 











(4) 知识 发 现 功能 三 
知识 发 现 是 从 大 量 的 数据 中 提取 人 们 感 兴 思 06 
趣 的 知识 的 能 力 ， 这 些 知识 可 以 是 隐 含 的 、 事 30 
先 未 知 的 或 者 潜在 有 用 的 信息 ， 提 取 的 知识 表 加 
示 为 概念 、 规 则 、 规 律 和 模式 等 形式 。 
(5) 红色 预警 功能 ' 
可 以 基于 数据 仓库 提供 预警 的 功能 。 sce 
(6) 数据 管理 功能 eA 








管理 功能 是 从 多 个 数据 源 抽取 、 转 换 和 加 载 ， 
以 及 清理 和 集成 数据 的 能 力 ， 包 括 高 效 的 存储 与 维护 的 能 


7.1.4 商业 智能 的 发 展 趋势 


随 着 互联 网 的 普及 和 技术 的 进步 ， 商 业 智 能 的 发 展 也 成 了 不 可 阻挡 的 趋势 ， 企 业 可 以 通 
过 互联 网 信息 的 收集 ， 获 取 更 多 的 客户 信息 和 交易 信息 ， 通 过 商业 智能 技术 的 应 用 ， 将 这 些 
数据 转化 成 更 有 价值 的 信息 ， 帮 助 企 业 的 高 层 做 出 准确 的 分 析 和 决策 。 

商业 智能 除了 帮助 企业 管理 人 员 做 出 准确 的 分 析 和 决策 ， 还 可 以 为 客户 提供 各 种 个 性 化 
的 服务 。 例 如 ， 通 过 客户 的 特征 和 以 往 的 交易 情况 ， 分 析出 客户 的 购买 力 和 喜好 ， 从 而 进行 
有 针对 性 的 营销 。 这 不 仅 给 商家 带 来 直接 的 经 济 利 益 ， 同 时 也 可 以 帮助 客户 在 最 短 的 时 间 内 
购买 到 最 需要 的 商品 。 商 业 智 能 的 发 展 必 然 通过 Web 和 局 域 网 的 交互 ， 实 现 信息 和 知识 的 
共享 。 

目前 随 着 商业 智能 技术 的 发 展 ， 增 强 了 对 非 结 构 化 数据 的 处 理 能 力 。 以 前 商业 智能 处 理 
的 数据 还 是 以 结构 化 的 信息 为 主 ， 也 就 是 存储 在 内 部 数据 库 中 的 数据 和 文本 。 而 现在 ， 越 来 
越 多 的 企业 已 经 将 各 种 非 结 构 化 数据 当做 主要 的 数据 源 ， 例 如 各 种 客户 的 呼叫 记录 、 影 像 资 
料 、 音 频 资 料 、 文 本 、 图 片 和 各 种 电子 邮件 等 。 

随 着 移动 互联 网 的 发 展 ， 大 大 提高 了 对 金融 数据 的 收集 能 力 ， 包 括 用 户 的 交易 数据 和 行 
为 数据 。 金 融 服 务 的 多 样 化 和 市 场 规模 的 不 断 扩 大 ， 需 要 对 这 些 数据 进行 深度 挖 气 和 分 析 ， 
匹配 金融 产品 的 交易 需求 ， 发 现 隐藏 的 趋势 信息 ， 让 金融 机 构 发 现 商 机 。 

为 了 实现 经 济 快速 发 展 的 目标 ， 很 多 制造 、 能 源 企业 必 将 大 力 发 展商 业 智能 技术 ， 加 大 
对 商业 智能 解决 方案 的 投入 ， 从 而 降低 生产 成 本 ， 提 高 资源 利用 率 和 市 场 占 有 率 ， 使 其 生产 
运营 能 够 健康 平稳 的 发 展 。 



















































































7.1.5 商业 智能 的 实施 方法 和 步 又 


1. 商业 智能 的 实施 方法 
商业 智能 的 实施 方法 包括 项 目 规划 、 系 统 设计 与 实现 、 系 统 调 优 以 及 系统 运行 及 维护 ， 
如 图 7-6 所 示 。 
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ee 


白 且 


en 系统 运行 及 维护 





图 7-6 商业 智能 的 实施 方法 


(1) 项 目 规划 

项 目 规划 主要 包括 项 目前 期 的 准备 、 业 务 现状 的 调研 、 目 前 系统 的 现状 分 析 。 分 析 内 容 
包括 业务 需求 的 定义 和 系统 实现 的 目标 ， 系 统 运行 环境 的 定义 ， 系 统 的 框架 结构 定义 ， 逻 辑 
模型 的 设计 等 。 

(2) 系统 设计 与 实现 

系统 设计 与 实现 主要 包括 系统 体系 结构 的 设计 ， 物 理 数据 库 的 设计 ， 数据 抽 取 、 转 换 和 
加 载 的 实现 ， 前 端 应 用 的 开发 ， 元 数据 的 管理 等 内 容 。 

(3) 系统 调 优 

系统 调 优 主 要 指 逻 辑 、 物 理 模型 的 调整 ， 系 统 性 能 的 调 优 。 

(4) 系统 运行 及 维护 

系统 运行 及 维护 主要 指 编写 系统 运行 及 维护 手册 ， 以 及 用 户 操作 手册 、 培 训 教材 等 
文档 。 

2， 商 业 智能 的 实施 步 又 

商业 智能 的 实施 步骤 包括 定义 需求 ， 数 据 仓 库 模 型 的 建设 ， 数 据 抽取 、 清 洗 、 转 换 、 加 
载 ， 建 立 商业 智能 分 析 报 表 ， 如 图 7-7 所 示 。 


商业 智能 的 实施 步 又 











数据 仓库 模型 建立 商业 智能 
的 建设 分 析 报 表 





图 7-7 商业 智能 的 实施 步骤 
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(1) 定义 需求 

需求 分 析 是 商业 智能 项 目 重要 的 一 步 ， 需 要 描述 项 目 背景 与 目的 、 业 务 范 围 、 业 务 目 
标 、 业 务 需 求 和 功能 需求 等 内 容 ， 明 确 企业 对 商业 智能 的 期 望 和 需要 分 析 哪 些 主题 等 方面 。 
其 中 项 目 表 景 主要 摘 述 已 有 系统 的 当前 现状 是 什么 ， 以 及 不 同 的 历史 时 期 ， 它 的 业务 需求 分 
别 是 什么 。 这 些 独 立 的 信息 系统 特点 一 般 是 缺乏 统一 的 整体 规划 和 标准 ， 数 据 分 散 ， 每 个 业 
务 之 间 不 能 共享 信息 ， 报 表 展 示 功 能 单一 ， 各 业务 系统 之 间 存 在 数据 不 一 致 的 现象 ， 企 业 领 
导 层 无 法 从 全 局 的 角度 对 业务 进行 综合 分 析 。 

商业 智能 项 目 最 重要 的 目的 之 一 是 解决 各 个 业务 系统 之 间 数 据 集 中 整合 的 问题 ， 为 企业 
管理 人 员 提 供 高 效 的 数据 查询 和 强大 的 报表 展示 功能 ， 同 时 能 够 进行 多 维度 的 深入 分 析 和 数 
据 挖掘 ， 为 企业 未 来 的 经 营 状 况 做 出 准确 的 预测 。 

业务 范围 是 对 项 目 团队 所 有 人 员工 作 范 围 的 界定 。 

业务 需求 是 描述 客户 对 于 系统 实现 的 总 体 性 要 求 ， 商 业 智能 项 目的 特点 是 从 不 同 的 维度 
去 分 析 各 个 主题 ， 以 报表 的 形式 对 业务 进行 阐述 。 功 能 需求 可 以 包含 : 各 个 业务 专题 分 析 、 
关键 性 指标 查询 和 监控 、 报 表 查 询 、 高 级 分 析 和 数据 挖掘 等 内 容 。 

商业 智能 的 功能 框架 如 图 7-8 所 示 。 
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(2) 数据 仓库 模型 的 建设 

模型 是 对 现实 世界 的 抽象 。 数 据 仓 库 模型 是 在 需求 分 析 的 基础 上 建立 起 来 的 。 数 据 模型 
的 设计 流程 是 : 在 系统 设计 、 开 发 之 前 ， 业 务 人 员 和 设计 人 员 共 同 参与 概念 模型 的 设计 ， 核 
心 的 业务 概念 在 业务 人 员 和 设计 人 员 之 间 达 成 一 致 。 在 系统 设计 开发 时 ， 业 务 人 员 和 系统 设 
计 人 员 共 同 参与 逻辑 模型 的 设计 。 最 后 ， 设 计 开 发 人 员 以 逻辑 模型 为 基础 进行 物理 模型 的 
设计 。 

(3) 数据 抽取 、 清 洗 、 转 换 、 加 载 

。 数据 抽取 

tt 如 果 每 个 业务 系统 的 
数据 情况 各 不 相同 ， 可 能 对 每 个 数据 源 都 需要 建立 独立 的 抽取 流程 ， 每 个 流程 都 需要 使 用 接 
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口 将 源 数 据 传 送 给 下 一 环节 ， 即 清洗 与 转换 阶段 。 通 过 数据 抽取 程序 ， 可 以 从 业务 源 系 统 中 
不 断 地 将 数据 抽取 出 来 ， 抽 取 周 期 可 以 设 定 为 某 个 固定 时 间 ， 例 如 每 天 中 午 12 点 对 源 数据 
进行 抽取 ， 也 可 以 设 定 为 某 个 时 间 间 隔 ， 例 如 每 6 个 小 时 抽取 源 数据 一 次 。 

。 数据 清洗 

清洗 阶段 是 对 业务 源 数据 的 清洗 和 确认 ， 检 查 抽取 的 源 数据 质量 是 否 达到 数据 仓库 的 规 
定 标准 。 数 据 清洗 大 致 有 两 种 方式 : @D 不 同业 务 系 统 间 各 自 专用 的 清洗 程序 ; @) 不 同业 务 
系统 间 有 满足 数据 仓库 清洗 需求 的 通用 程序 ， 从 不 同业 务 系统 抽取 的 数据 有 可 能 存在 数据 不 
一 致 的 情况 ， 可 以 使 用 相关 规则 和 标准 检查 业务 源 数 据 的 质量 。 

e 数据 转换 

转换 是 对 源 系 统 的 数据 在 最 后 一 步 进行 的 修改 ， 包 括 对 源 数据 的 聚合 以 及 各 种 计算 ， 是 
整个 ETL 过 程 的 核心 部 分 。 

。 数据 加 载 

加 载 是 将 数据 加 载 到 最 后 的 目标 表 中 ， 其 复杂 度 没有 转换 高 ， 一 般 采用 批量 装载 的 
形式 。 

(4) 建立 商业 智能 分 析 报 表 

商业 智能 分 析 报 表 通 过 对 数据 仓库 的 数据 分 析 ， 使 企业 的 高 层 领导 可 以 多 角度 地 查看 企 
业 的 运营 情况 ， 并 且 按 照 不 同 的 方式 去 探查 企业 内 部 的 核心 数据 ， 从 而 更 好 地 帮助 企业 决策 
人 员 对 公司 未 来 经 营 状 况 进 行 预 测 和 判断 。 


7.1.6 商业 智能 项 目 成 功 的 关键 


商业 智能 项 目 成 功 的 关键 因素 如 下 。 

1) 企业 高 级 领导 层 对 商业 智能 项 目的 支持 和 雄厚 的 资金 是 项 目 成 功 的 关键 因素 之 一 。 

2) 拥有 实力 雄厚 的 技术 团队 。 拉 术 团 队 成 员 不 仅 精 通商 业 智 能 相关 技术 ， 同 时 也 熟悉 
相关 的 业务 规则 和 开发 流程 。 

3) 商业 智能 项 目 团队 的 协同 合作 能 力 。 项 目的 管理 者 需要 保证 团队 中 每 个 成 员 分 工 明 
确 ， 沟 通 及 时 ， 并 且 需 要 各 部 门 之 间 有 良好 的 合作 能 力 。 总 之 ， 商 业 智 能 项 目的 实施 是 一 个 
长 期 的 不 断 完 善 的 过 程 。 


7.1.7 关于 商业 智能 的 核心 技术 1 


商业 智能 实质 上 是 数据 转化 成 信息 全 
和 知识 的 过 程 。 构 建 一 个 完整 的 商业 特 罗 技术 
能 系统 需要 以 下 几 种 核心 的 技术 : 数据 > | 一 


仓库 、 数 据 挖掘 和 分 析 、ETL 处 理 技术 、 












































联机 分 析 处 理 ( OLAP) 技术 、 可 视 化 分 . 数据 仓库 . 可 视 化 分 析 

析 、 大 数据 技术 、 商 业 智 能 元 数据 管理 ， . 数据 挖掘 和 分 析 . 大 数据 技术 

如 图 7-9 所 示 。 .ETL 处 理 技术 . 商业 智能 元 数据 管理 
1. 数据 仓库 . 联机 分 析 处 理 技术 
数据 仓库 之 父 一 一 比尔 . 恩 门 在 

《如 何 构建 数据 仓库 》 一 书 中 将 数据 仓库 四 
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定义 为 :“ 数 据 仓库 是 在 企业 管理 和 决策 中 面向 主题 的 、 集 成 的 、 时 变 的 、 非 易 失 的 (不 可 
修改 的 ) 数据 集合 "” 。 实 质 上 ， 数 据 仓 库 是 对 数据 处 理 技术 的 集成 ， 它 是 为 了 进一步 挖掘 数 
据 资 源 ， 为 了 决策 分 析 而 产生 的 。 数 据 仓 库 的 目的 是 为 了 前 端 报表 查询 和 决策 分 析 。 

数据 仓库 与 传统 数据 库 的 区 别 是 : 传统 数据 库 主要 用 于 企业 日 常 的 事务 处 理 ， 而 数据 仓 
库 主 要 用 于 商业 分 析 ， 在 不 影响 日 常 业务 处 理 的 前 提 下 ， 辅 助 企业 高 层 进 行商 业 决策 。 

最 终 用 户 对 数据 仓库 的 访问 方式 包括 : 即席 查询 、 报 表 、 联 机 分 析 处 理 (OLAP) 、 数 
据 挖 气 ， 如 图 7-10 所 示 。 


即席 查询 


Pom 


数据 仓库 的 
联机 分 析 处 理 访问 方式 y 数据 挖 所 





图 7-10 数据 仓库 的 访问 方式 





2. 数据 挖掘 和 分 析 

数据 挖掘 (DataMining) 起 源 于 1989 年 8 月 ， 出 自在 美国 底特律 举办 的 第 11 届 国 际 联合 
人 工 智 能 学 术 会 议 中 Piatetsky - Shapiro 提出 的 KDD (Knowledge Discovery and DataMining)。 数 
据 挖掘 是 指 从 海量 的 数据 中 抽取 出 有 意义 的 、 重 要 的 和 潜在 有 用 的 信息 和 知识 的 过 程 。 从 技 
术 上 来 说 ， 数 据 挖掘 是 一 门 交叉 学 科 ， 融 合 了 统计 学 、 人 工 智 能 、 模 式 识别 、 机 器 学 习 等 
内 容 。 

数据 挖掘 的 工作 过 程 可 以 包括 数据 的 抽取 、 存 储 管理 、 挖 据 和 展现 等 几 个 部 分 ， 如 
图 7-11 所 示 。 


数据 的 抽取 存储 管理 


AR 


4 数据 挖掘 





工作 过 程 





7-11 数据 挖掘 的 工作 过 程 


。 数据 的 抽取 
所 谓 抽 取 就 是 将 数据 从 外 部 数据 源 或 者 其 他 联机 事物 处 理 系统 中 导入 到 数据 仓库 或 者 其 
他 数据 库 中 。 
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。 存储 管理 

存储 管理 主要 针对 如 何 管理 海量 的 数据 、 优 化 查询 效率 和 处 理 各 种 并 发 数据 等 。 

。 挖掘 

挖掘 就 是 利用 各 种 的 挖掘 算法 得 到 相应 知识 的 过 程 。 

e 展现 

最 后 的 数据 展现 就 是 实现 各 种 的 预定 义 查 询 、 动 态 报 表 查 询 等 内 容 ， 展 示 的 方式 包括 各 
种 的 直方 图 、 动 态 模 拟 和 饼 图 等 。 简 单 地 说 ， 数 据 挖掘 就 是 将 对 数据 的 简单 查询 提升 到 挖掘 
言 息 和 知识 的 过 程 。 

数据 挖掘 和 分 析 主 要 用 于 从 大 量 的 数据 中 发 现 背后 隐藏 的 规律 和 数据 间 的 关系 。 采 用 数 
据 挖掘 技术 ， 可 以 为 用 户 提供 自动 化 和 智能 的 辅助 决策 分 析 。 特 别 是 在 金融 行业 、 零 售 业 和 
医疗 卫生 领域 ， 都 有 大 量 的 应 用 。 

在 数据 挖掘 技术 中 ， 常 用 的 模型 有 : 分 类 模型 、 关 联 模型 、 顺 序 模型 和 聚 篮 模型， 如 
图 7-12 所 示 。 

(1) 分 类 模型 














根据 商业 数据 的 属性 将 数据 分 配 到 不 同 ;ygeg a 
的 组 中 全 于 一重 | 二 呈 二 二 

(2) 关联 模型 | jah 

主要 描述 一 组 数据 项 目的 密切 度 和 关系 。 了 | 己 | 

(3) 顺序 模型 ”加 辕 | , 

主要 用 于 汇总 数据 中 的 常见 顺序 或 事件 。 一 一 候 于 


顺序 模型 可 以 看 成 是 一 种 特殊 的 关联 模型 ， 
它 在 关联 模型 中 增加 了 时 间 属 性 。 

(4) 聚 复 横 型 

按照 某 种 相近 程度 将 数据 分 成 一 些 组 。 组 中 的 数据 相近 ， 组 之 间 的 数据 相差 较 大 。 

数据 挖掘 是 一 个 闭环 的 、 反 复 循 环 的 过 程 ， 需 要 业务 分 析 人 员 、IT 工程 师 共同 完成 。 
一 般 来 说 ， 它 有 以 下 几 个 步骤 : 

1) 对 业务 范围 的 定义 ， 在 这 个 阶段 需要 明确 对 数据 挖掘 的 目标 和 定位 ， 制 定数 据 挖掘 
的 计划 。 

2) 选择 合适 的 数据 ， 定 义 相关 的 训练 数据 集 和 验证 数据 集 等 内 容 。 

3) 对 数据 进行 探索 分 析 ， 使 数据 集 尽 可 能 满足 建 模 算法 的 要 求 。 

4) 分 析 并 且 确 定数 据 挖掘 模型 。 建 模 人 员 需 要 不 断 地 测试 模型 性 能 ， 从 而 选择 最 佳 的 
数据 模型 。 

5) 模型 实施 和 评价 。 通 过 模型 实施 的 结果 帮助 相关 人 员 做 出 战略 决策 。 同 时 收集 结果 
反馈 ,判断 是 否 需 要 改进 模型 。 

我 们 可 以 引用 商业 智能 的 概念 。 决 策 人 员 以 企业 级 数据 仓库 为 基础 ， 利 用 联机 分 析 处 理 
工具 、 数 据 挖掘 工具 ， 加 上 决策 人 员 的 专业 知识 ， 从 数据 中 获得 有 用 的 信息 和 知识 ， 帮 助 企 
业 获 取 利 润 ， 而 数据 挖掘 就 是 建立 在 数据 仓库 基础 上 的 增值 技术 。 

数据 仓库 和 数据 挖 气 之 间 的 关系 如 图 7-13 所 示 。 

数据 仓库 是 为 了 支持 企业 决策 分 析 的 数据 集合 。 它 是 面向 主题 的 、 集 成 的 、 稳 定 的 ， 并 
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图 7-12 ”数据 挖掘 技术 中 常用 的 模型 
































且 随 时 间 发 生变 化 。 它 的 关键 技术 包括 数据 的 抽 ee 


取 、 清 洗 、 转 换 、 加 载 和 维护 技术 。 
数据 挖 据 是 从 海量 的 数据 中 ， 抽 取出 有 意义 &* 


的 、 潜 在 有 用 的 信息 和 知识 的 过 程 。 数 据 挖 气 的 
数据 来 源 可 以 是 数据 仓库 或 者 其 他 数据 库 。 对 于 
挖 杞 的 数据 需要 进行 选择 ， 挖 气 的 结果 需要 进行 
评估 ， 按 照 评估 结果 的 不 同 ， 一 般 需要 重新 分 析 
和 计算 。 

数据 挖 据 可 以 对 数据 仓库 中 的 历史 数据 进行 提 。 yypw> 
炼 和 挖 扎 ， 使 得 这 些 数据 成 为 信息 和 知识 。 可 以 借 
助 对 历史 数据 的 分 析 ， 发 现 数据 内 部 有 价值 的 
规律 。 

数据 仓库 是 数据 挖掘 的 基础 。 因 为 数据 仓库 的 数据 是 完整 的 、 集 成 的 ， 所 以 它 为 数据 控 
据 提 供 了 扎实 的 数据 基础 。 数 据 仓库 可 以 为 数据 挖掘 提供 需要 的 历史 数据 和 全 面 的 数据 处 
理 、 分 析 等 基础 设施 。 

3. ETL 处 理 技术 

ETL 即 数据 抽取 (Extract) 、 转 换 (Transfomm) 、 装 载 (Load) 的 过 程 。 它 是 构建 数据 
仓库 系统 的 关键 环节 。 因 为 数据 仓库 主要 存储 面向 主题 的 、 集 成 的 、 稳 定 的 并 且 随 时 间 不 断 
变化 的 数据 集合 ， 所 以 数据 在 进入 到 仓库 之 前 ， 需 要 经 过 清洗 、 转 化 的 过 程 ， 保 证 数据 仓库 
的 数据 是 准确 的 。ETL 的 作用 就 是 解决 数据 集成 化 的 问题 。 

ETL 过 程 中 包含 一 些 灵活 的 计算 、 汇 总 、 字 段 拆 分 、 字 段 合 并 、 数 据 比 较 、 过 滤 、 混 合 
运算 等 内 容 ， 还 包括 对 自 定义 函数 的 支持 、 复 杂 条 件 的 过 滤 、 数 据 的 批量 加 载 、 时 间 类 型 的 
转换 、 多 种 数据 类 型 支持 、 去 重复 记录 等 功能 。 

在 数据 仓库 系统 中 ，ETL 占有 重要 的 地 位 。ETL 作为 一 种 数据 整合 解决 方案 ,已 经 上 逢 
到 了 一 种 理论 的 高 度 。ETL 在 数据 仓库 中 具有 以 下 两 个 特点 。 

1) 数据 流动 具有 周期 性 。 一 般 来 说 ， 商 业 智能 ETL 按照 基 种 业务 抽取 规则 周期 性 运 
行 ， 每 次 运行 都 会 加 载 新 的 数据 到 目标 库 中 。 

2) 因为 数据 仓库 中 的 数据 量 巨大 ， 所 以 一 般 采用 成 熟 的 ETL 工具 去 完成 抽取 、 转 换 、 
加 载 工作 ， 以 降低 设计 开发 和 维护 的 复杂 度 ， 使 设计 开发 人 员 有 更 多 的 时 间 专 注 于 业务 转化 
规则 。 

ETL 是 数据 仓库 项 目 中 最 艰难 且 耗 时 最 长 的 工作 之 一 。ETL 系统 的 设计 和 开发 工作 对 商 
业 智能 项 目的 成 败 产生 至 关 重要 的 影响 。 如 果 把 数据 仓库 项 目 看 成 一 座 大 厦 的 话 ， 那 么 数据 
模型 就 像 图 样 ， 而 ETL 就 是 建造 这 座 大 厦 的 过 程 。 而 作为 从 事 商业 智能 的 专业 人 十 ， 需 要 
真正 理解 ETL 理论 方面 的 知识 ， 而 不 仅仅 停留 在 ETL 工具 的 使 用 上 ， 因 为 只 有 这 样 ， 才 能 
更 好 地 发 挥 它 的 作用 。 

4 联机 分 析 处 理 技术 
联机 分 析 处 理 (OLAP) 技术 主要 通过 多 维 的 方式 对 数据 进行 分 析 、 查 询 和 报表 处 理 。 
这 种 决策 分 析 是 基于 多 维 的 和 历史 数据 的 。 
联机 分 析 处 理 是 数据 仓库 应 用 的 前 端 工具 ， 同 时 可 以 与 数据 挖掘 工 具 配合 使 用 ， 以 增强 















轧 
三 有 


数据 库 其 他 数据 源 


图 7-13 数据 仓库 和 数据 挖掘 之 间 的 关系 
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决策 分 析 的 功能 。 

OLAP 的 基本 目标 就 是 支持 决策 分 析 和 多 维 数据 查询 。OLAP 通过 对 信息 的 各 种 形式 的 
存 取 ， 满 足 企 业 决 策 人 员 和 管理 人 员 对 复杂 查询 的 处 理 ， 并 且 将 结果 提供 给 决策 分 析 人 员 ， 
使 他 们 对 企业 的 运营 状况 有 更 深入 的 了 解 ， 能 够 制定 出 正确 的 决策 方针 。 形 象 地 说 ，OLAP 
是 引领 企业 发 展 的 “灯塔 ”。 

OLAP 系统 的 特点 包含 以 下 几 个 方面 ， 如 图 7-14 所 示 。 

1) 丰富 的 报表 展示 功能 : OLAP 系统 一 般 有 
丰富 的 报表 展示 功能 ， 如 柱 形 图 、 折 线 图 、 饼 
形 图 。 

2) 数据 访问 和 多 维 分 析 的 能 力 : 提供 给 用 








丰富 的 报表 展示 
功能 











户 数据 访问 和 多 维 分 析 的 能 力 ， 并 以 用 户 希望 的 “国人 
方式 进行 展示 。 ss Ts 

3) 快速 的 数据 分 析 能 力 : OLAP 系统 有 秘 多 mi 用 
的 数据 分 析 能 VW 上 

5， 可 视 化 分 析 

“一 图 胜 千言 "， 虽 然 图 形 可 以 传达 大 量 信 Se 


息 , 但 是 图 形 一 定 要 和 干净、 清晰 ， 同 时 传达 出 重要 的 信息 。 很 多 企业 领导 或 者 分 析 人 员 看 到 
复杂 的 图 形 时 ， 可 能 会 非常 苦恼 。 

数据 可 视 化 分 析 是 指数 据 用 各 种 图 像 处 理 技 术 ， 将 数据 转化 成 各 种 图 表 的 方法 和 手段 。 
例如 ， 数 据 可 以 用 饼 图 、 散 点 图 、 直 方 图 和 柱状 图 等 方式 进行 展示 。 它 们 是 数据 可 视 化 的 基 
础 。 但 是 面 对 复 杂 的 数据 集 ， 比 如 财务 报表 、 用 户 行为 数据 ， 可 以 用 立体 、 多 维 或 者 动态 实 
时 的 方式 进行 展示 。 数 据 可 视 化 本 身 可 以 看 做 是 一 门 艺术 。 

数据 可 视 化 分 析 的 特点 如 图 7-15 所 示 。 





多 维 性 
用 户 可 以 用 多 个 角度 去 分 
析 数 据 


用 户 和 数据 之 间 的 交互 性 
通过 交互 的 方式 管理 和 使 
用 数据 ， 通 过 图 形 或 者 多 
维 图 形 的 方式 对 数据 进行 
可 视 化 分 析 




















7-15 ”数据 可 视 化 分 析 的 特点 


数据 可 视 化 分 析 的 功能 如 下 : 
1) 通过 可 视 化 技术 ,辅助 进行 数据 关联 分 析 。 
2) 通过 可 视 化 技术 ， 识 别 和 预测 活动 ， 帮 助 高 层 人 员 做 出 及 时 和 准确 的 决策 。 
。 数据 可 视 化 的 过 程 
复杂 的 数据 可 视 化 包括 数据 的 采集 、 数 据 分 析 和 挖 据 等 一 系列 的 过 程 ， 然 后 由 技术 人 员 
以 立体 、 多 维 或 者 实时 动态 的 方式 将 数据 展示 出 来 。 
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e 数据 可 视 化 的 目的 

数据 的 可 视 化 是 为 了 观察 和 跟踪 各 种 数据 ， 生 成 实时 的 、 可 读 性 强 的 图 表 ; 分 析 数 据 ， 
生成 交互 式 的 图 表 ; 发 现 数据 之 间 的 潜在 关系 ， 生 成 多 维 图 表 ， 以 及 多 角度 的 分 析 数 据 ， 帮 
助 用 户 深刻 地 理解 数据 含义 和 变化 。 

数据 可 视 化 可 以 有 多 种 表现 形式 ， 如 图 7-16 ~ 图 7-18 所 示 。 


ES 18.5% 

BB 11% 

.7% 

.cv 
0 





84.3% 





0% 20% 40% 60% 80% 100% 


图 7-16 ”数据 可 视 化 的 表现 形式 之 一 
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图 7-17 数据 可 视 化 的 表现 形式 之 二 











6 商业 智能 元 数据 管理 

在 商业 智能 领域 中 ， 元 数据 定义 为 : 在 数据 仓库 系统 的 建 
立 、 维 护 、 管 理 和 使 用 过 程 中 ， 用 以 描述 实际 数据 的 信息 ， 是 
关于 数据 的 数据 。 在 商业 智能 系统 的 建设 过 程 中 ， 元 数据 占有 
非常 重要 的 地 位 ， 它 不 仅 定义 了 数据 仓库 的 许多 对 象 ， 例 如 表 
结构 、 所 有 的 字段 列 等 属性 ， 还 包括 对 数据 仓库 内 部 数据 流动 
和 业务 规则 的 描述 。 元 数据 的 框架 图 如 图 7-19 所 示 。 

元 数据 管理 是 整个 商业 智能 系统 中 最 重要 的 环节 之 一 。 元 数 
据 管理 贯穿 于 商业 智能 系统 数据 “流动 ”的 全 过 程 ， 主 要 包括 
数据 源 元 数据 、 采 集 元 数据 、 数 据 仓库 元 数据 、 数 据 集 市 元 数 。 图 7-18 数据 可 视 化 的 
据 、 应 用 服务 层 元 数据 等 。 表现 形式 之 三 

元 数据 的 分 类 主要 包括 业务 元 数据 、 技 术 元 数据 和 管理 元 数据 ， 如 图 7-20 所 示 。 
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即席 查询 、 报 表 和 数据 展示 




















元 
= 业务 元 数据 
管 
理 Ny 
技术 元 数据 管理 元 数据 
数据 仓库 TS 
] 3 
业务 系统 和 外 部 数据 源 
图 7-19 元 数据 的 框架 图 图 7-20 元 数据 的 分 类 
e 业务 元 数据 


业务 元 数据 可 以 分 成 业务 规则 、 业 务 指标 、 业 务 描述 和 业务 术语 等 4 个 部 分 。 这 4 个 部 


分 共同 完成 对 业务 信息 的 表述 。 


息 
vv 


。 技术 元 数据 
技术 元 数据 包含 关于 商业 智能 系统 技术 层面 的 信息 ， 描 述 了 数据 源 接口 、ETL 映射 关 


、 数 据 仓库 和 数据 集 市 等 系统 的 特征 。 


。 管理 元 数据 
管理 元 数据 主要 是 指 商 业 智能 系统 日 常 建设 过 程 中 涉及 开发 、 运 维 管理 各 方面 的 基本 信 





， 在 此 基础 上 对 系统 需求 开发 和 日 常 运 维 管理 提供 文 持 。 


元 数据 在 商业 智能 项 目 中 占有 非常 重要 的 地 位 ， 是 数据 仓库 系统 的 灵魂 和 核心 。 数 据 仓 





库 系统 在 建设 的 过 程 中 产生 的 数据 源 定义 、 转 换 规 则 的 定义 、 目 标 库 的 定义 都 存储 在 元 数据 
库 中 。 元 数据 还 支持 以 下 几 种 功能 : 


1) 描述 数据 仓库 系统 存在 哪些 数据 。 

2) 描述 哪些 数据 是 在 数据 仓库 系统 中 产生 的 。 

3) 描述 哪些 数据 将 要 抽取 到 数据 仓库 系统 中 。 

4) 评 佑 数据 质量 的 好 坏 。 

5) 记录 数据 抽取 工作 的 执行 情况 。 元 数据 为 企业 建设 数据 仓库 系统 提供 了 详细 的 记 





录 ， 并 且 保 证 了 数据 的 一 致 性 和 准确 性 。 因 此 ， 元 数据 对 于 数据 仓库 系统 的 开发 和 管理 是 非 
常 重要 的 ， 具有 决定 性 的 意义 。 


7.2 商业 智能 一 数据 仓库 理论 概述 


pa 


7.2.1 数据 仓库 的 概念 


数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 非 易 失 的 、 反 映 历史 变化 的 、 随 着 时 间 的 流逝 发 
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生变 化 的 数据 集合 ， 它 主要 用 来 支持 企业 管理 人 员 的 决策 分 析 。 

数据 仓库 中 面向 主题 的 特性 是 根据 业务 的 不 同 而 进行 的 内 容 划 分 。 数 据 仓库 的 集成 特性 
是 因为 不 同 的 业务 源 数 据 具 有 不 同 的 数据 特点 ， 当 业务 源 数据 进入 到 数据 仓库 时 ， 需 要 采用 
统一 的 编码 格式 进行 数据 加 载 ， 从 而 保证 数据 仓库 中 数据 的 唯一 性 。 数 据 仓 库 的 非 易 失 性 是 
旨 数 据 仓库 通 常 保存 数据 不 同 历史 时 期 的 各 种 状态 ， 并 不 对 数据 进行 任何 更 新 操作 。 数 据 仓 
库 的 历史 特性 是 指数 据 保 留 时 间 改 字段， 记录 每 个 数据 在 不 同时 间 点 的 各 种 状态 。 


7.2.2 数据 仓库 的 特点 
数据 仓库 的 主要 特点 如 图 7-21 所 示 。 


反映 历史 变化 国有 向 主题 























图 7-21 数据 仓库 的 主要 特点 





1. 面向 主题 

普通 的 操作 型 数据 库 主 要 是 面向 事务 性 处 理 ， 而 数据 仓库 中 的 所 有 数据 一 般 按照 主题 进 
行 划 分 ， 主 题 是 对 业务 数据 的 一 种 抽象 ， 是 从 较 高 层次 上 对 信息 系统 中 的 数据 进行 归纳 和 
整理 。 

面向 主题 的 数据 组 织 可 以 分 成 两 部 分 : 根据 原 系统 业务 数据 的 特点 进行 主题 的 抽取 和 确 
定 每 个 主题 所 包含 的 数据 内 容 是 什么 。 上 典型 的 主题 包括 客户 主题 、 产 品 主题 、 财 务 主题 等 ， 
其 中 客户 主题 包括 客户 基本 信息 、 客 户 信 用 信息 、 客 户 资产 信息 等 内 容 。 我 们 在 分 析 数 据 仓 
库 主 题 的 时 候 ， 一 般 的 方法 是 先 确 定 几 个 基本 的 主题 ， 然 后 将 范围 扩大 ， 最 后 “逐步 

2. 集成 

数据 集成 是 数据 仓库 的 主要 特点 之 一 。 

1) 数据 仓库 是 多 个 数据 源 的 综合 和 汇总 。 

2) 对 于 数据 仓库 来 说 ， 数 据 必须 转换 成 统一 的 格式 。 

3) 在 数据 仓库 系统 的 建设 过 程 中 ， 数 据 集成 工作 占 到 系统 建设 的 80% 以 上 。 

4) 数据 仓库 中 的 数据 经 过 源 系 统 的 抽取 、 清 洗 、 转 换 、 加 载 得 到 ， 为 了 保证 数据 不 存 
在 二 义 性 ， 对 源 数据 进行 编码 的 统一 和 必要 的 汇总 ， 以 保证 仓库 内 数据 的 一 致 性 。 数 据 仓 库 
在 经 历 集 成 阶段 后 ， 使 得 数据 仓库 中 的 数据 遵循 统一 的 编码 规则 。 

集成 一 般 有 两 种 形式 ， 如 图 7-22 所 示 。 











。 数据 的 集成 
当 数据 从 操作 型 数据 库 传 向 数据 仓库 时 ， 数 据 就 会 被 集成 。 
。 编码 的 集成 


当 数 据 仓库 是 从 原 有 分 散 的 源 数 据 库 抽 取出 来 的 时 候 ， 为 了 消除 编码 的 不 一 致 性 ， 需 要 
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编码 的 集成 











图 7-22 集成 一 般 有 两 种 形式 


将 这 些 来 自 不 同 数据 源 的 数据 编码 集成 起 来 ,使 之 遵循 统一 的 编码 规则 。 

3. 稳定 性 

数据 仓库 中 的 数据 反映 的 都 是 一 段 历 史 时 期 的 数据 内 容 ， 它 的 主要 操作 是 查询 、 分 析 而 
不 进行 一 般 意 义 上 的 更 新 ， 一旦 某 个 数据 进入 到 数据 仓库 后 ， 一 般 情况 下 ， 数 据 会 被 长 期 保 
留 ， 当 超过 规定 的 期 限时 ， 才 会 被 删除 。 通 常数 据 仓库 需要 做 的 工作 就 是 加 载 、 查 询 和 分 
析 ， 一 般 不 进行 任何 修改 操作 ， 是 为 了 企业 高 层 人 员 决策 分 析 之 用 。 

4. 反映 历史 变化 

操作 型 数据 库 主 要 反映 某 一 时 间 段 内 的 数据 ， 而 数据 仓库 的 目标 就 是 对 企业 的 发 展 趋势 
做 出 分 析 和 预测 。 数 据 仓 库 不 断 地 从 OLTP 数据 库 中 获得 变化 的 数据 ， 从 而 形成 分 析 和 预测 
需要 的 历史 数据 ， 所 以 一 般 数 据 仓库 中 数据 表 的 键 码 都 含有 时 间 项 ， 以 标明 数据 的 历史 时 期 
言 息 ， 然 后 不 断 地 增加 新 的 数据 内 容 。 

通常 来 说 ， 数 据 仓库 包含 的 时 间 期 限 大 概 是 5 ~ 10 年 ， 当 超出 规定 的 期 限时 ， 需 要 删除 
这 些 过 时 的 数据 。 通 过 这 些 历 史 信息 可 以 对 企业 的 发 展 历程 和 趋势 做 出 分 析 预 测 。 同 时 我 们 
要 清楚 ， 数 据 仓 库 的 建设 需要 大 量 的 业务 数据 作为 积累 ， 而 将 这 些 宝贵 的 历史 信息 经 过 加 
工 、 整 理 ， 最 后 提供 给 决策 分 析 人 员 ， 这 是 数据 仓库 建设 的 根本 目的 。 


7.2.3 数据 仓库 和 数据 库 之 间 的 区 别 


数据 库 生产 系统 主要 是 面向 应 用 的 、 事 务 型 的 数据 处 理 ， 一 般 来 说 ， 具 有 实时 性 较 高 、 
数据 检索 量 较 小 、 普 通用 户 的 数量 较 大 等 特点 。 而 数据 仓库 系统 主要 面向 主题 的 、 分 析 型 的 
数据 处 理 ， 实 时 性 要 求 不 高 ， 数 据 检索 量 较 大 ， 主 要 针对 特殊 的 用 户 群 体 (一 般 是 企业 高 
层 领导 、 决 策 分 析 人 员 等 ) ， 用 户 的 数量 较 小 。 

其 中 事务 型 处 理 数据 和 分 析 型 处 理 数据 是 有 区 别 的。 

一 般 来 说 ， 事 务 型 处 理 数据 对 性 能 的 要 求 较为 严格 ， 数 据 是 事务 驱动 的 ， 主 要 面向 应 
用 ,存储 的 一 般 都 是 具备 即时 性 、 细 节 性 特点 的 数据 ， 数 据 是 可 更 新 的 。 

对 于 分 析 型 处 理 数据 ， 一 般 来 说 ， 对 性 能 的 要 求 较 高 ， 数 据 是 分 析 驱 动 的 ， 主 要 面向 决 
策 分 析 ， 存 储 的 一 般 都 是 历史 、 汇 总 性 的 数据 ， 数 据 是 不 可 更 新 的 。 

相 比 其 他 系统 ， 数 据 仓库 系统 有 哪些 优势 呢 ? 有 下 面 几 种 : 

1) 数据 仓库 系统 可 以 获取 生产 系统 综合 的 信息 ， 作 为 科学 决策 分 析 的 重要 依据 。 

2) 可 以 从 宏观 和 微观 的 角度 理解 信息 。 

3) 可 以 通过 数据 仓库 系统 建立 企业 各 个 部 门 之 间 的 联系 。 
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7.3 商业 智能 一 数据 集 市 理论 概述 


7.3.1 数据 集 市 简介 


1. 数据 集 市 产生 原因 

1) 数据 仓库 虽然 能 够 满足 所 有 最 终 用 户 的 需求 ,但 是 各 个 部 门 业务 不 同 ,需求 侧 重点 
不 同 ， 且 需求 也 是 不 断 变 化 的 ， 这 就 要 求 数 据 仓库 存储 的 数据 具有 充分 的 灵活 性 ， 以 适应 各 
类 用 户 的 查询 和 分 析 。 

2) 最 终 用 户 对 信息 检索 要 求 是 高 性 能 的 ， 即 越 快 越 好 。 

对 数据 仓库 而 言 ， 灵 活性 和 性 能 是 一 对 矛盾 体 。 提 高 灵活 性 就 要 存储 各 种 历史 数据 ， 但 是 
一 个 特定 查询 就 要 关联 很 多 表 ， 人 性 能 就 不 能 保证 。 为 了 解决 这 一 和 矛盾， 数据 仓库 中 就 增加 了 数 
据 集 市 。 数 据 集 市 存储 为 特定 用 户 需 求 而 预先 计算 好 的 数据 ， 从 而 满足 用 户 对 性 能 的 要 求 。 

数据 集 市 产生 的 另外 一 个 原因 是 数据 仓库 开发 周期 较 长 ， 投 入 较 大 ， 规 模 较 小 的 企业 无 
法 承担 。 数 据 集 市 能 够 快速 解决 某 些 问题 ， 而 且 投资 规模 也 比 数据 仓库 小 很 多 。 

2. 数据 集 市 的 定义 

比尔 盖 欧 说 过 :“ 如 何 收集 、 管 理 和 利用 信息 将 决定 您 的 胜 负 。” 商业 智能 正 是 在 这 
种 需求 下 诞生 的 ， 而 数据 集 市 是 满足 部 分 特殊 用 户 群 体 用 来 收集 、 管 理 他 们 本 部 门 、 本 专业 
言 息 的 数据 仓库 。 

大 多 数 情 况 下 ， 数 据 集 市 的 数据 来 源 于 数据 仓库 ， 它 是 一 种 小 型 的 部 门 级 别 的 数据 仓 
库 。 数 据 集 市 的 重点 就 是 它 满足 了 某 些 用 户 的 特殊 业务 需求 ， 根 据 所 属 部 门 的 需求 ， 对 历史 
数据 进行 必要 的 汇总 和 计算 。 那 么 什么 是 数据 集 市 呢 ? 

数据 集 市 就 是 满足 特定 的 部 门 或 者 用 户 的 需求 ， 按 照 多 维 的 方式 进行 存储 ， 包 括 定义 维 
度 、 需 要 计算 的 指标 、 维 度 的 层次 等 ， 生 成 面向 决策 分 析 需 求 的 数据 立方 体 。 数 据 仓库 体系 
结构 中 增加 了 数据 集 市 ， 数 据 集 市 又 可 以 看 做 部 门 级 的 小 型 数据 仓库 ， 如 图 7-23 所 示 。 
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图 7-23 ”数据 集 市 与 各 系统 之 间 的 关系 
3. 数据 集 市 的 优点 和 缺点 
数据 集 市 的 优点 : 
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投资 规模 小 ， 投 资 回收 期 相对 较 短 、 灵 活 ， 风 险 性 较 小 ， 同 时 可 以 按照 多 种 方式 进行 
织 ， 如 部 门 、 应 用 等 。 

数据 集 市 的 缺点 : 

1) 建立 数据 集 市 的 部 门 是 相互 隔离 的 ， 很 多 标准 、 流 程 和 知识 经 验 不 能 共享 ， 这 会 导 
致 大 量 的 资源 浪费 和 重复 劳动 。 

2) 数据 集 市 在 某 种 程度 上 会 造成 成 本 的 增加 ， 例 如 很 多 部 门 会 选择 不 同 的 工具 、 软 件 
和 人 硬件， 同时 需要 一 定数 量 的 技术 人 员 。 

3) 不 同 的 部 门 建设 各 自 的 数据 集 市 ， 这 些 集 市 之 间 没 有 数据 的 集成 ， 相 互 独立 ， 因 此 
可 能 会 出 现 数据 不 一 致 的 现象 。 

4. 数据 集 市 分 类 

数据 集 市 的 分 类 包括 : 产品 类 数据 集 市 、 管 理 类 数据 集 市 和 研发 类 数据 集 市 。 

(1) 产品 类 数据 集 市 

产品 类 数据 集 市 的 定位 是 通过 数据 挖掘 、 建 模 和 其 他 方法 ， 帮 助 企 业 发 现 重 要 的 趋势 和 
规律 ， 以 提高 运营 效率 。 产 品类 数据 集 市 的 对 象 主要 是 企业 内 部 人 员 。 

产品 类 数据 集 市 主要 包括 : 文本 分 析 、 模 拟 分 析 、 数 据 挖 气 、 预 测 分 析 、 优 化 分 析 和 可 
视 化 分 析 ， 如 图 7-24 所 示 。 











可 视 化 分 析 








图 7-24 产品 类 数据 集 市 





。 文本 分 析 

对 非 结构 化 数据 中 的 文本 进行 分 析 ， 以 提高 业务 洞察 力 。 

。 模拟 分 析 

用 先进 的 技术 手段 模拟 流程 、 行 为 和 业务 ， 可 以 帮助 企业 分 析 未 来 业务 的 发 展 方向 。 

。 数 据 挖掘 

数据 挖掘 是 由 专业 人 士 根 据 不 同 的 业务 场景 选择 不 同 的 挖掘 算法 ， 通 过 数据 挖掘 探索 数 
据 背后 隐藏 的 规则 ， 从 而 进行 业务 预测 和 归 类 。 

。 预测 分 析 

通过 历史 和 当前 交易 数据 去 分 析 和 预测 未 来 的 业务 能 

。 优化 分 析 

利用 先进 的 数学 技术 ， 帮 助 企 业 提高 运营 效率 ， 同 时 提供 强大 的 知识 库 。 

。 可 视 化 分 析 

通过 图 表 、 地 图 、 日 程 表 和 图 片 等 ,利用 专业 的 工具 分 析 业 务 的 趋势 等 。 
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(2) 管理 类 集 市 

管理 类 集 市 是 指 为 了 运营 管理 的 需要 而 进行 的 数据 整合 分 析 ， 从 而 更 好 地 提高 企业 的 运 
营 水 平 。 管 理 类 集 市 主要 面向 企业 的 内 部 人 员 ， 一 般 来 说 ， 对 于 数据 的 实时 性 要 求 不 高 。 

管理 类 集 市 应 用 包括 管理 驾驶 舱 、 固 定 报表 、OLAP 分 析 、 关 键 绩效 指标 (KPI) 和 数 
据 质量 检查 等 ， 如 图 7-25 所 示 。 








固定 报表 
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图 7-25 管理 类 集 市 应 用 














。 管理 驾驶 舱 

管理 驾驶 舱 对 企业 领导 层 所 关注 的 经 营 活 动 的 关键 指标 做 定制 化 展示 ， 并 以 直观 的 图 表 
形式 展示 结果 。 

。 固定 报表 

以 固化 报表 的 形式 将 手工 报表 自动 化 。 

e OLAP 分 析 

通过 灵活 的 多 维 分 析 ， 帮 助 企业 决策 者 发 现 问题 ， 追 溯 问 题 根 源 ， 预 测 发 展 趋势 等 。 同 
时 为 制定 问题 解决 方案 ， 改 善 企 业经 营 状 况 提 供 帮 助 。 

e KPI 

KPI (Key Performance Indicator) 即 关键 绩效 指标 。 

。 数据 质量 检查 

按照 业务 需求 定义 数据 质量 检查 规则 ， 按 照 规 则 定期 得 出 数据 质量 分 析 报告 ， 提 供给 业 
务 部 门 敦 促 报 送 机 构 提供 数据 质量 。 

(3) 研发 类 数据 集 市 

研发 类 数据 集 市 主要 是 支撑 企业 各 部 门 的 业务 应 用 系统 ， 提 供 业务 需要 的 数据 集合 ， 主 
要 用 于 支持 数据 研究 分 析 工 作 。 人 研发 类 数据 集 市 同样 也 支持 各 部 门 的 临时 业务 需求 。 人 研发 类 
数据 集 市 之 间 是 相互 独立 的 。 

在 架构 中 ， 数 据 集 市 是 基于 数据 仓库 进行 产品 加 工 的 ， 数 据 集 市 的 建设 方式 可 以 分 成 两 
种 模式 : 库 内 数据 集 市 和 库 外 数据 集 市 。 

所 谓 库 内 数据 集 市 是 部 署 在 企业 数据 仓库 之 内 的 ， 在 数据 仓库 汇总 数据 的 基础 上 构建 特 
定 应 用 的 数据 集 市 。 库 内 集 市 可 以 共享 仓库 内 的 汇总 数据 。 

库 外 数据 集 市 是 在 数据 仓库 之 外 单独 部 署 ， 具 有 专门 的 软 硬 件 设备 ， 数 据 来 源 可 以 是 数 
据 仓库 的 基础 层 数 据 ， 或 者 是 汇总 层 的 数据 。 
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7.3.2 数据 集 市 和 数据 仓库 的 联系 和 区 别 


(1) 数据 集 市 和 数据 仓库 的 联系 

数据 集 市 是 一 组 特定 的 、 针 对 某 个 主题 域 、 某 个 部 门 或 者 某 些 特殊 用 户 而 进行 分 类 的 数 
据 集 合 ， 也 可 以 说 是 小 型 的 数据 仓库 。 用 户 可 以 在 数据 集 市 中 快速 地 对 数据 进行 访问 和 对 报 
表 进 行 展示 ， 同 时 在 数据 结构 的 内 部 对 数据 进行 必要 的 汇总 和 优化 。 

数据 集 市 的 存储 通常 按照 划分 主题 的 形式 进行 存放 ， 其 模型 一 般 是 星 形 结构 或 者 雪花 形 
结构 。 而 数据 仓库 除了 按照 主题 的 形式 进行 存放 外 ， 其 模型 一 般 按照 第 三 范式 的 形式 进行 设 
计 。 数 据 仓库 到 数据 集 市 的 过 程 是 从 数据 规范 化 到 多 维 建 模 的 过 程 ， 包 括 数据 仓库 内 的 实体 
表 转 化 成 事实 表 、 维 表 ， 以 及 将 实体 之 间 的 关系 转化 成 多 维 关系 的 映射 。 

在 数据 仓库 项 目 中 ， 数 据 集 市 通常 按照 地 区 、 日 期 等 维度 对 数据 进行 组 织 和 汇总 ， 因 此 
数据 仓库 转化 成 数据 集 市 也 是 按照 轻 量 级 汇总 或 者 中 度 汇总 和 计算 所 完成 的 。 简 而 言 之 ， 数 
据 集 市 里 的 数据 一 般 都 是 从 数据 仓库 中 经 过 转换 、 汇 总 计算 获取 的 ， 直 接 支 撑 前 端的 应 用 需 
求 ， 如 图 7-26 所 示 。 

数据 集 市 的 数据 通常 会 作为 OLAP 服务 和 应 用 服务 的 数据 输入 。 数 据 集 市 的 数据 一 般 不 
会 从 源 数 据 系统 中 直接 抽取 ， 即 一 般 不 提倡 建设 独立 型 的 数据 集 市 。 这 是 因为 ， 如 果 数 据 集 
市 从 源 数 据 系统 中 直接 抽取 数据 ， 则 可 能 导致 数据 的 不 一 致 性 ， 同 时 也 会 增加 多 个 额外 的 进 
程 ， 这 些 进程 在 源 系统 中 将 大 大 消耗 系统 的 CPU 资源 ， 从 而 造成 资源 上 的 浪费 。 数 据 集 市 
和 数据 仓库 的 关系 如 图 7-27 所 示 。 
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7-26 数据 集 市 的 数据 来 源 图 7-27 数据 仓库 和 数据 集 市 的 关系 











(2) 数据 集 市 和 数据 仓库 的 区 别 

数据 仓库 的 数据 是 经 过 整合 和 清洗 的 ， 它 能 够 提供 统一 的 视图 。 当 数据 仓库 建成 之 后 ， 
报表 、OLAP 应 用 和 数据 分 析 挖 掘 都 可 以 从 数据 仓库 中 获取 数据 。 

对 于 数据 集 市 来 说 ， 它 主要 是 通过 分 析 应 用 的 特点 ， 判 断 应 该 获取 什么 样 的 数据 。 例 
如 ， 市 场 部 的 数据 集 市 可 能 不 需要 人 力 资 源 的 数据 。 一 般 来 说 ， 数 据 集 市 就 是 企业 级 数据 仓 
库 的 一 个 子 集 ， 主 要 面向 部 门 级 的 业务 ， 或 者 某 个 特定 的 主题 。 











191 


在 数据 结构 上 ， 数 据 仓库 是 面向 主题 的 、 集 成 的 数据 的 集合 。 而 数据 集 市 通常 定义 为 星 
形 结构 或 者 雪花 形 结 构 。 数 据 集 市 一 般 是 由 一 张 事实 表 和 几 张 维 表 组 成 。 数 据 仓 库 和 数据 集 
市 的 数据 结构 如 图 7-28 所 示 。 

















图 7-28 数据 仓库 和 数据 集 市 的 数据 结构 


数据 仓库 和 数据 集 市 的 区 别 见 表 7-1。 
表 7-1 数据 仓库 和 数据 集 市 的 区 别 





















































比较 对 象 数据 仓库 数据 集 市 
数据 来 源 ODS 数据 仓库 
数据 范围 面向 企业 级 一 般 是 部 门 级 
数据 结构 第 三 范式 雪花 形 或 星 形 结构 
历史 数据 大 量 的 历史 数据 一 部 分 历史 数据 
索引 高 度 索 引 高 度 索引 


7.3.3 数据 集 市 的 技术 特性 


数据 集 市 是 数据 仓库 体系 中 的 一 种 小 型 的 部 门 或 工作 组 级 别 的 数据 仓库 ， 从 而 满足 用 户 
对 性 能 的 需求 。 数 据 集 市 在 一 定 程度 上 可 以 缓解 访问 数据 仓库 的 瓶 希 问题 。 根 据 数据 集 市 应 
用 的 不 同 ， 可 以 分 成 库 内 集 市 或 库 外 集 市 。 数 据 集 市 技术 路 线 的 指导 原则 包括 : 

1) 大 规模 并 行 处 理 能 

2) 数据 高 速 加 载 和 纯 载 。 

3) 存储 压缩 。 

4) 快速 刷新 。 

5) 海量 数据 处 理 能 力 。 数 据 集 市 和 数据 仓库 的 区 别 在 于 数据 的 范围 和 主题 ， 数 据 仓 库 
是 全 局 的 整体 的 数据 ， 数 据 集 市 主要 服务 于 特定 主题 ， 在 某 些 时 候 ， 数 据 集 市 的 数据 量 很 
大 ， 因 此 ， 集 市 需要 具备 处 理 大 并 发 、 复 杂 查 询 的 能 力 。 

6) 线性 扩展 能 力 。 数 据 集 市 平台 应 该 具备 线性 扩展 的 能 力 ， 可 以 满足 数据 不 断 增长 的 
需求 。 

7) 工作 负载 管理 能 力 。 提 供 工作 负载 管理 能 

8) 高 可 用 性 。 数 据 集 市 平台 可 以 提供 高 可 用 的 方案 ， 满 足 系统 的 高 可 用 性 要 求 。 

9) 数据 压缩 。 必 须 提供 良好 的 数据 压缩 能 力 ， 降 低 存 储 成 本 ， 多 段 备份 和 恢复 时 间 ， 
满足 系统 的 时 间 要 求 。 
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10) 高 速 数 据 加 载 和 钊 载 能 力 。 必 须 提 供 高 速 的 数据 加 载 和 伸 载 能 力 ， 以 保证 数据 加 
载 和 全 载 能 够 在 较 短 的 时 间 内 完成 ， 从 而 减轻 运 维 压力 。 

11) 星 形 模 型 /雪花 形 模 型 性 能 优化 。 一 般 来 说 ， 数 据 集 市 中 的 数据 ,通常 按照 星 形 和 
雪花 形 模型 组 织 ， 数 据 集 市 平台 必须 提供 针对 性 的 优化 ， 以 满足 用 户 响 应 时 间 的 要 求 。 

12) 满足 数据 库 平 台 需 求 的 能 力 。 数 据 集 市 平台 本 身 是 一 个 数据 库 平 台 ， 除 了 满足 数据 
集 市 的 特殊 需求 外 ， 还 必须 满足 数据 库 平 台 全 部 能 力 。 

















7.4 商业 智能 一 ODS 概述 


7.4.1 ODS 简介 


1. ODS 的 概念 
通过 前 几 章 的 学 习 ， 我 们 已 经 知道 数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 相 对 稳定 的 、 
反映 历史 变化 的 数据 集合 ， 用 于 文 持 用 户 的 辅助 决策 分 析 。 

而 ODS (Operational Data Store ， 操 作 数 据 存储 ) 则 是 一 个 面向 主题 的 、 集 成 的 、 可 变 
的 、 反 映 当 前 细节 的 数据 集合 。 它 主要 用 于 支持 企业 处 理 业 务 应 用 和 存储 面向 主题 的 、 即 时 
性 的 集成 数据 ， 为 企业 决策 者 提供 当前 细节 性 的 数据 ， 通 常 作为 数据 仓库 的 过 渡 阶段 。 

2. ODS 建设 原因 

ODS 系统 建设 的 原因 有 多 种 ， 主 要 原因 有 : 

1) 系统 重复 开发 ， 造 成 资源 极度 浪费 。 不 同 应 用 之 间 ， 可 能 存在 相同 的 数据 抽取 和 需 
求 ， 经 过 多 次 抽取 ， 浪 费 网 络 存储 资源 ， 造 成 不 同 应 用 系统 之 间 数 据 的 不 一 致 性 ， 同 时 也 会 
给 业务 系统 带 来 沉重 的 压力 。 

2) 一 般 来 说 ， 业 务 部 门 需要 的 信息 可 能 来 自 于 多 个 系统 ， 但 是 由 于 各 个 系统 之 间 的 数 
据 可 能 会 出 现 口 径 不 一 致 ， 数 据 不 规范 的 现象 ， 因 此 大 大 增加 了 临时 抽取 数据 的 难度 ， 同 时 
很 难保 证 数据 的 一 致 性 和 准确 性 。 

综 上 所 述 ， 通 过 ODS 系统 的 建设 ， 既 可 以 大 大 缩短 应 用 系统 的 实施 路 径 ， 减 少 重复 性 
的 设计 和 开发 ， 又 可 以 提高 数据 的 响应 速度 和 准确 性 ， 为 以 后 的 数据 挖掘 和 分 析 打 下 基础 。 

3.， ODS 的 特点 

业务 数据 经 过 ETL 数据 抽取 、 转 换 、 加 载 ， 进 入 到 0DS 系统 中 ， 为 企业 提供 了 一 种 全 
局 的 、 集 成 的 和 反映 当前 实时 性 的 视角 ， 在 支持 企业 决策 分 析 需 求 的 同时 ， 还 能 够 在 业务 系 
统 和 数据 仓库 之 间 构 建 一 个 数据 缓冲 带 ， 使 得 数据 之 间 的 传输 和 转换 变 得 相对 容易 。 

ODS 系统 的 主要 功能 就 是 将 多 个 业务 系统 中 不 同 的 数据 源 进行 数据 集成 ， 通 过 数据 抽 
取 、 转 换 、 加 载 ， 将 数据 放 入 到 共享 的 存储 区 中 ， 以 保证 数据 的 一 致 性 。 

ODS 具有 以 下 特点 : 

1) 数据 是 不 断 更 新 和 易 丢 失 的 ， 当 新 的 业务 数据 进入 到 0DS 时 ， 旧 的 数据 会 被 新 数据 
履 盖 或 者 更 新 ， 一 般 不 存储 历史 数据 ， 只 反映 当前 实时 性 的 信息 。 

2) ODS 系统 一 般 存 储 的 都 是 细节 性 的 信息 ， 很 少 有 汇总 的 数据 ， 即 ODS 包含 粒度 级 别 
最 低 的 数据 。 

3) ODS 系统 支持 快速 的 数据 更 新 操作 ， 数 据 刷 新 频率 很 快 ， 一 般 不 保存 过 期 的 历史 数据 。 
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4) ODS 系统 一 般 存储 在 关系 数据 库 中 ， 通 过 将 各 个 业务 系统 的 数据 集成 起 来 ， 组 成 企 
业 的 全 局 统一 性 视图 ， 实 现 ODS 的 数据 共享 功能 。 

5) 用 户 可 以 频繁 访问 0DS 系统， 因为 它 是 基于 操作 型 应 用 的 。 

4. ODS 设计 原则 

ODS 的 设计 原则 包括 可 扩展 性 、 高 可 用 性 、 可 重用 性 和 高 性 能 ， 如 图 7-29 所 示 。 


ODS 的 设计 原则 ) 





图 7-29 ODS 的 设计 原则 


(1) 可 扩展 性 

可 扩展 性 是 指 ODS 系统 可 以 支持 业务 系统 扩展 的 需要 。 举 例 来 说 ,设计 0DS 数据 模型 
的 时 候 ， 应 该 充分 考虑 新 旧 系 统 的 业务 数据 模型 能 够 扩展 到 ODS 系统 中 。 

(2) 高 可 用 性 

高 可 用 性 是 指 系统 发 生变 化 的 时 候 ， 可 以 依赖 架构 的 灵活 性 ， 仍 能 保证 系统 的 正常 运 
行 。 例 如 ， 对 于 模型 的 设计 ， 应 该 考虑 业务 源 系统 结构 发 生变 化 时 对 ODS 系统 带 来 的 影响 。 
也 就 是 说 ， 局 部 模型 的 扩展 不 会 影响 到 ODS 数据 模型 。 

(3) 可 重用 性 

可 重用 性 是 指 尽 量 避 免 重 复 的 系统 建设 ， 尽 可 能 考虑 物理 设备 、 系 统 软件 、 模 型 以 及 应 
用 上 的 复 用 。 举 例 来 说 ， 对 于 ETL 处 理 流程 ， 分 析 ETL 任务 的 各 个 环节 ， 找 出 公共 的 组 件 ， 
进行 封装 ， 然 后 进行 复 用 。 

(4) 高 性 能 

高 性 能 是 指 ODS 系统 可 以 承受 峰值 时 的 系统 压力 和 更 多 的 应 用 ， 保 证 系统 可 以 正常 
运行 。 

5. ODS 的 主要 功能 

ODS 的 主要 功能 如 图 7-30 所 示 。 

(1) 作为 业务 系统 和 数据 仓库 之 间 的 隔离 地 再 

一 般 来 说 ,数据 仓库 系统 的 数据 来 源 非常 复杂 ， 数 据 可 能 存储 在 不 同 的 应 用 系统 和 业务 
数据 库 中 ， 为 了 满足 数据 仓库 对 业务 数据 的 抽取 标准 ， 需 要 在 应 用 系统 和 数据 仓库 系统 之 间 
建立 一 个 “隔离 墙 ” ， 如 图 7-31 所 示 。0ODS 系统 作为 “隔离 墙 ” 的 目的 是 临时 存储 多 个 业 
务 源 数 据 ， 经 过 一 系列 的 清洗 、 转 换 并 达到 数据 仓库 对 数据 的 要 求 后 ， 再 将 数据 加 载 到 数据 
仓库 中 。 

在 业务 系统 中 直接 将 数据 抽取 到 数据 仓库 中 并 不 容易 ，ODS 系统 作为 业务 系统 和 数据 
仓库 系统 之 间 的 隔离 地 带 ， 用 于 存放 从 业务 系统 抽取 出 来 的 数据 ， 为 数据 仓库 提供 了 平整 、 
可 靠 的 数据 源 。 
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图 7-30 0DSs 的 主要 功能 图 7-31 ”ODS 的 “隔离 墙 ” 功 能 





(2) 降低 业务 系统 的 压力 

在 数据 仓库 建立 之 前 ， 大 量 的 决策 分 析 报表 是 由 业务 系统 直接 生成 的 ， 在 报表 生成 过 程 
中 可 能 存在 复杂 的 计算 ， 对 业务 系统 的 运行 产生 非常 大 的 压力 。 在 建立 ODS 系统 之 后 ， 原 
来 由 业务 系统 直接 产生 的 复杂 报表 、 对 细 市 数据 的 查询 都 能 够 在 ODS 系统 中 进行 ， 从 而 有 
效 降低 了 业务 系统 的 查询 压力 ， 提 高 了 业务 系统 的 运行 效率 。 

(3) 满足 从 微观 角度 查询 细节 数据 的 要 求 

一 般 来 说 ， 在 数据 仓库 体系 结构 中 ， 数 据 仓库 层 存储 的 数据 都 是 经 过 轻 度 汇总 的 数 
据 和 历史 数据 ， 几 乎 不 存储 任何 生产 运营 过 程 中 产生 的 细节 数据 。 但 是 ， 为 了 满足 特殊 
用 户 群 体 的 要 求 ， 可 能 需要 对 一 些 交 易 数 据 进行 查询 ， 这 时 需要 把 查询 这 些 交 易 数 据 的 
功能 让 ODS 系统 来 实现 。 通 常 ，ODS 系统 支持 多 维 分 析 的 功能 ， 因 为 它 也 是 面向 主题 的 
和 集成 的 。 数 据 仓 库 从 宏观 上 文 持 多 维 决策 分 析 ， 而 ODS 系统 从 微观 角度 描述 细 闻 性 的 
数据 查询 。 

(4) 实时 性 的 数据 整合 功能 

ODS 系统 具有 实时 性 的 数据 整合 功能 。 它 通过 ETL 技术 ， 实 时 地 从 各 个 业务 系统 中 抽 
取 企 业 的 运营 交易 数据 ， 通 过 数据 转换 、 清 洗 、 加 载 等 操作 最 终 形 成 共享 数据 ， 为 企业 提供 
统一 的 数据 视图 。 这 种 数据 整合 功能 有 助 于 提高 数据 的 一 致 性 ， 为 数据 仓库 提供 优质 的 数 
据 源 。 

(5) 检查 数据 质量 的 功能 

ODS 系统 具有 完善 的 数据 质量 检查 功能 。 它 通过 对 企业 数据 的 质量 检查 和 质量 评 佑 ， 
完善 企业 内 部 的 组 织 机 构 ， 支 持 对 数据 质量 管理 流程 的 监控 ， 从 而 实现 对 源 数据 质量 问题 的 
发 现 和 修正 。 

(6) 为 企业 提供 统一 的 数据 视图 和 数据 共享 功能 

ODS 系统 为 企业 提供 统一 的 数据 视图 和 数据 共享 功能 。 它 通过 对 各 个 业务 系统 运 维 数 
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据 的 集成 ， 实 现 ODS 的 数据 共享 ， 同 时 为 企业 提供 全 局 的 
统一 数据 视图 。 

6. 0DS 的 设计 步 又 

ODS 的 设计 步骤 如 图 7-32 所 示 。 

(1) 数据 调研 

数据 调研 主要 是 根据 业务 人 员 提 供 的 需求 意向 ， 将 业 
务 系统 划分 成 几 个 模块 ， 并 对 各 个 模块 所 涉及 的 数据 和 数 
据 源 进行 调研 分 析 。 数 据 调 研 分 析 可 以 分 成 编号 、 模 块 名 
称 、 数 据 来 源 (包括 导入 和 输入 )、 备 注 等 信息 ， 见 
表 7-2。 
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ODS 系统 的 物理 实现 











图 7-32 ODS 系统 的 设计 步骤 


表 7-2 数据 调研 分 析 表 























数据 来 源 备注 
编 号 模块 名 称 
导 入 输 入 
1 生产 数据 
基本 数据 

















(2) 确定 数据 范围 

确定 数据 范围 是 在 需求 调研 的 基础 上 进行 的 。 为 了 保证 所 需 的 数据 都 能 够 从 业务 系统 中 
得 到 ， 需 要 将 应 用 需求 与 ODS 的 数据 范围 结合 起 来 ， 也 就 是 对 ODS 进行 主题 的 划分 。 通 稼 
来 说 ，ODS 主题 的 划分 是 以 企业 的 业务 模型 为 基础 ， 通 过 参考 各 种 业务 系统 信息 模型 ， 得 
到 ODS 数据 主题 的 范围 ， 根 据 该 范围 进行 ODS 主题 的 定义 ， 从 而 确定 ODS 的 数据 范围 。 

(3) 设计 主题 元 素 

ODS 系统 的 主题 元 素 主要 包括 主题 名 称 、 维 度 、 度 量 值 、 粒 度 、 存 储 的 时 间 ， 下 面 分 
别 进行 介绍 。 

e 主题 名 称 : 说 明 该 主题 主要 包含 哪些 分 析 数 据 ， 用 户 重点 关注 的 对 象 是 什么 。 

e 维度 : 说 明 数 据 分 析 时 的 角度 有 哪些 ， 如 时 间 维 度 的 年 、 季 、 月 、 日 等 。 

e 度量 值 : 说 明 用 户 关注 的 指标 值 ， 如 工资 额 、 销 售 量 等 。 

e 粒度 : 是 指 对 数据 的 细 化 程度 。 一 般 来 说 ， 细 化 程度 越 高 ， 粒 度 级 别 就 越 低 ; 细 化 程 

度 越 低 ， 粒 度 级 别 就 越 高 。 

e 存储 的 时 间 : 主要 描述 数据 的 存储 周期 和 存储 期 限 是 多 少 。 

(4) ODS 系统 的 物理 实现 

ODS 系统 的 物理 实现 主要 包括 数据 库 的 物理 实现 、 数 据 抽取 的 设计 等 内 容 。 


7.4.2 ODS 系统 与 数据 库 系 统 、 数 据 仓库 系统 的 区 别 


ODS 系统 是 既 不 同 于 一 般 的 数据 库 系 统 ， 又 不 同 于 数据 仓库 系统 的 一 种 特殊 的 数据 存 
储 系统 。 它 与 一 般 数据 库 有 很 多 区 别 ， 它 的 数据 组 织 方式 是 面向 主题 的 、 集 成 的 ， 而 数据 库 
系统 则 是 面向 应 用 和 事务 处 理 的 。 
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ODS 系统 与 数据 仓库 系统 相 比 ， 它 只 存储 当前 的 、 细 节 性 的 信息 或 者 接近 当前 的 实时 
性 数据 ， 可 以 对 数据 进行 增加 、 删 除 和 修改 等 操作 ， 而 数据 仓库 系统 虽然 是 面向 主题 和 集成 
的 ， 但 是 数据 一 般 不 进行 修改 ， 并 且 存 储 大 量 的 历史 数据 。0ODS 系统 和 数据 仓库 系统 的 主 
要 区 别 体现 在 数据 的 时 间 性 、 稳 定性 、 可 修改 性 、 细 节 性 和 用 户 访问 频率 上 。 

ODS 系统 与 数据 库 系统 、 数 据 仓库 系统 的 区 别 如 图 7-33 所 示 。 


。 面 向 应 用 、 事 务 处 理 。 面 向 主题 、 集 成 的 。 面 向 主题 、 集 成 的 
。 实 时 性 高 。 实时 性 要 求 高 。 实 时 性 要 求 不 高 

。 数 据 检 索 量 小 。 数 据 检 索 量 小 。 数 据 检索 量 大 

。 只 存储 当前 数据 。 一 般 只 保留 当前 数据 。 存 储 大 量 历史 数据 和 


















































。 访 问 频率 高 。 访 问 频率 高 轻 度 汇总 的 数据 
。 响应 时 间 控制 到 1s 。 响 应 时 间 控制 到 1s 。 访 问 频率 中 、 低 
以 下 




















以 下 。 响应 时 间 需 几 秒 或 者 
。 用 户 数量 大 。 用 户 数量 相对 较 小 更 长 
。 用户 数 量 相 对 较 小 
































图 7-33 ODS 系统 与 数据 库 系统 、 数 据 仓库 系统 的 区 别 


总 结 : 

(1) ODS 系统 与 数据 仓库 系统 的 区 别 

1) ODS 系统 是 业务 数据 进入 到 数据 仓库 系统 中 的 一 段 临时 存储 区 域 ， 存储 当前 或 者 接 
近 当 前 的 实时 性 数据 ， 而 数据 仓库 一 般 只 存储 历史 数据 。 

2) ODS 系统 对 数据 的 更 新 是 频繁 的 ， 而 数据 仓库 中 的 数据 是 不 能 更 新 的 ， 数 据 的 任何 
变化 都 应 该 反映 到 数据 仓库 中 。 

3) ODS 系统 主要 存储 细节 性 的 数据 ， 而 数据 仓库 系统 既 包 含 细节 性 的 历史 数据 ， 同 时 
也 包含 轻 度 汇总 的 数据 。 

(2) ODS 系统 与 数据 库 系统 的 区 别 

1) 数据 库 系统 主要 是 面向 事物 处 理 和 应 用 的 ， 而 ODS 系统 主要 是 面向 主题 的 和 集成 的 。 

2) 数据 库 系统 的 用 户 量 相对 较 大 ， 而 ODS 系统 面 对 的 用 户 数量 相对 较 小 。 


7.4.3 基于 ODS 的 即时 OLAP 应 用 


基于 ODS 系统 的 即时 OLAP 应 用 是 建立 决策 分 析 的 一 种 解决 方案 ， 通 常 应 用 于 中 、 低 
级 别 的 决策 分 析 应 用 。 基 于 数据 仓库 的 OLAP 应 用 是 
为 了 进行 长 期 的 趋势 分 析 ， 但 是 一 般 和 运行 较 慢 。 如 
果 企 业 决 策 者 需要 查看 周期 时 间 较 短 的 一 些 指标 情 























基于 ODS 的 即时 基于 数据 仓库 的 
OLAP 应 用 即时 OLAP 应 用 





上 Se : 。 是 决策 分 析 系 。 是 决策 分 析 系 
况 ， 不 需要 太 多 的 历史 数据 ， 这 样 就 需要 建立 基于 统 的 一 种 解决 统 的 一 种 解决 
ODS 的 即时 OLAP 应 用 。 基 于 0DS 的 OLAP 和 基于 为 方案 
We 过 。 满足 日 常 频繁 。 消 足 长 期 趋势 
数据 仓库 的 OLAP 之 间 的 关系 如 图 7-34 所 示 。 的 趋势 分 析 的 分 析 








例如 ， 查 看 一 周 之 内 的 各 地 区 销售 情况 ， 只 需 “|* 运行 时 间 较 短 “运行 时 间 较 长 
要 参考 当前 时 间 内 一 周 的 历史 数据 ， 如 果 在 数据 仓 
库 中 建立 即时 OLAP 应 用 ， 运 行 效率 非常 低 ， 并 且 很 
难 准 确 地 反映 当前 时 间 的 各 地 区 销售 情况 。 











图 7-34 ”基于 0DS 的 OLAP 和 基于 数据 
仓库 的 OLAP 之 间 的 关系 
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7.4.4 ODS 系统 的 功能 


一 般 来 说 ， 在 数据 仓库 系统 中 ， 存 储 的 数据 都 是 轻 度 汇总 的 指标 数据 或 者 历史 数据 ， 很 
少 有 细节 性 的 、 当 前 的 生产 运营 数据 ,但 是 在 特殊 的 应 用 中 ， 用 户 可 能 会 对 这 些 生产 数据 进 
行 查询 ， 然 而 数据 仓库 不 支持 这 些 特殊 的 查询 ， 这 部 分 功能 可 以 由 ODS 系统 来 实现 。 

ODS 系统 不 仅 可 以 支持 多 维 分 析 等 查询 功能 ， 还 可 以 满足 对 细节 性 的 交易 数据 或 者 粒 
度 级 别 很 低 的 数据 进行 查询 的 要 求 。ODS 系统 是 按照 面向 主题 的 方式 进行 数据 存储 ， 同 时 
它 又 只 存储 当前 时 间 段 内 的 或 者 接近 当前 的 细节 性 数据 。0DS 系统 的 数据 组 织 方 式 是 基于 
主题 的 ， 它 对 所 有 业务 系统 的 数据 进行 集成 ， 组 成 全 局 共享 的 数据 视图 。ODS 系统 的 男 一 
个 重要 功能 就 是 数据 共享 的 功能 ， 它 的 数据 存储 量 取 决 于 对 业务 数据 的 抽取 频率 。 


ODS 系统 的 数据 具有 交互 功能 ,不仅 提供 企业 


的 全 局 信息 统一 视图 ， 满 足 对 信息 共享 的 需求 ， 同 


时 还 可 以 在 固定 的 周期 内 ， 实 现 决策 分 析 系统 与 其 | 细 , 代入 度数 所 共享 | 数据 安 所 
他 业务 系统 之 间 的 交互 。 当 0DS 系统 的 数据 有 更 新 > 


时 ,外 围 的 业务 系统 数据 也 会 发 生 相 应 的 变化 。 
ODS 系统 的 功能 如 图 7-35 所 示 。 图 7-35 ”ODS 系统 的 功能 


7.4.5 ODS 系统 的 架构 


ODS 系统 是 一 个 面向 主题 的 、 集 成 的 、 当 前 的 、 可 更 新 的 数据 集合 ， 用 于 细节 性 的 查 
询 和 为 决策 分 析 系 统 提 供 当 前 时 间 段 内 的 数据 。0DS 系统 是 介 于 操作 型 数据 库 和 数据 仓库 
之 间 的 一 种 存储 方式 ， 其 中 数据 仓库 存储 的 是 概括 性 的 数据 和 历史 数据 ， 而 ODS 系统 存储 
的 是 细节 性 数据 和 当前 时 间 段 内 的 数据 。 

数据 仓库 系统 和 0DS 系统 之 间 的 结合 能 够 分 析 企业 当前 的 运营 情况 ， 同 时 对 未 来 企业 
的 经 营 状 况 进行 合理 的 规划 和 分 析 。ODS 系统 中 的 数据 可 以 进行 增加 、 删 除 、 修 改 等 操作 ， 
但 是 数据 仓库 中 的 数据 一 般 不 能 进行 修改 。 数 据 仓库 系统 与 业务 系统 相隔 离 ， 目 的 是 减 小 数 
据 仓 库 的 处 理 和 决策 支持 分 析 对 业务 系统 造成 的 影响 ,减少 业务 系统 的 压力 。 

ODS 系统 的 架构 如 图 7-36 所 示 。 
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图 7-36 ODS 系统 的 架构 
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7.5 商业 智能 一 ETL 概述 


7.5.1 ETL 体系 是 商业 智能 核心 的 技术 架构 


在 商业 智能 系统 中 ，ETL (Extract - Transform - Load， 数 据 抽取 、 转 换 、 加 载 ) 占有 重 
要 的 地 位 ，ETL 作为 一 种 数据 整合 解决 方案 ， 已 经 上 升 到 了 一 种 理论 的 高 度 。ETL 在 商业 智 
能 系统 中 具有 以 下 几 个 特点 。 

1) 数据 流动 具有 周期 性 。 一 般 来 说 ， 商 业 智能 ETL 按照 某 种 业务 抽取 规则 周期 性 运 
行 ， 每 次 运行 都 会 加 载 新 的 数据 到 目标 库 中 。 

2) 因为 数据 仓库 中 的 数据 量 巨 大 ， 所 以 一 般 采 用 成 熟 的 ETL 工具 去 完成 抽取 、 转 换 、 
加 载 ， 以 降低 设计 开发 和 维护 的 复杂 度 ， 使 设计 开发 人 员 有 更 多 的 时 间 去 专注 于 业务 转化 规 
则 。ETL 是 数据 仓库 项 目 中 最 艰难 且 耗 时 最 长 的 工作 之 一 。ETL 系统 的 设计 和 开发 工作 对 商 
业 智 能 项 目的 成 败 产 生 至 关 重 要 的 影响 。 如 果 把 数据 仓库 项 目 看 成 一 座 大 厦 的 话 ， 那 么 数据 
模型 就 像 图 样 ， 而 ETL 就 是 建造 这 座 大 厦 的 过 程 。 而 作为 从 事 商 业 智 能 的 专业 人 士 ， 需 要 
真正 理解 ETL 理论 方面 的 知识 ， 而 不 仅仅 停留 在 ETL 工具 的 使 用 上 ， 因 为 只 有 这 样 ， 才 能 
更 好 地 发 挥 它 的 作用 。 

例如 ， 如 图 7-37 所 示 ， 建 筑 图 样 的 规划 就 是 数据 仓库 模型 的 设计 过 程 ， 根 据 图 样 建造 
房屋 的 过 程 就 是 ETL 设计 开发 的 过 程 ， 而 那 座 美丽 的 房屋 就 是 数据 仓库 的 成 果 。 可 以 看 出 ， 
建造 房屋 的 过 程 就 是 耗 时 较 长 和 相对 困难 的 工作 ， 即 ETL 是 整个 数据 仓库 项 目 中 难度 最 大 、 
耗费 时 间 最 长 的 工作 之 一 。 






































按照 图 样 进行 房屋 的 建设 建筑 图 样 的 规划 














到 7-37 数据 仓库 模型 的 设计 过 程 


7.5.2 ETL 的 一 般 过 程 


ETL 是 数据 抽取 (Extract)、 转 换 (Transform) 、 加 载 (Load ) 的 英文 简写 。 它 的 一 般 
过 程 是 指 : 首先 访问 源 数据 ， 连 接 数据 源 和 目标 仓库 之 间 的 数据 流 ， 然 后 经 过 数据 的 转换 、 
传输 和 加 载 ， 最 后 加 载 到 目标 表 中 。 整 体 流程 中 有 相应 的 出 错 人 处理， 如 图 7-38 所 示 。 
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出 错 处 理 










转换 、 传 输 和 加 载 
连接 数据 源 和 目 
标 数据 仓库 之 间 
有 访问 数据 源 的 数据 流 
图 7-38 ETL 的 一 般 过 程 


7.5.3 ”研究 ETL 的 本 质 


为 了 更 好 地 理解 ETL 的 流程 有 必要 研究 一 下 ETL 的 本 质 。 

1) 用 户 应 该 理解 ETL 本 质 上 就 是 数据 从 源 到 目标 的 过 程 ( 即 数据 流动 的 过 程 ) 。 

在 数据 仓库 中 历史 数据 是 海量 的 ，ETL 过 程 需要 经 历 以 下 几 个 步 又: 抽取 、 清 洗 、 转 
换 、 加 载 。 抽 取 和 加 载 是 转换 过 程 的 输入 和 输出 部 分 ， 而 数据 转换 是 ETL 过 程 的 核心 部 分 ， 
也 是 难度 最 大 的 部 分 。 可 以 把 ETL 分 成 静态 单元 和 动态 单元 两 个 部 分 。 所 谓 静 态 单 元 ， 就 
是 业务 数据 转换 的 规则 ， 而 动态 单元 是 ETL 时 间 调 度 的 最 小 单位 。 目 前 有 很 多 成 熟 的 工具 
都 提供 ETL 功能 ， 包 括 Informatica 、DataStage 、Kettle 等 。 这 些 工具 不 但 具有 可 视 化 的 数据 
流动 、 转 换 编 辑 界面 ， 还 提供 各 种 转换 规则 定义 和 数据 转化 的 函数 集 。 

2) 多 数 ETL 工具 价格 昂贵 ,虽然 在 宏观 上 一 般 都 适合 处 理 海量 的 数据 ， 但 是 在 微观 上 
需要 考虑 ETL 处 理 的 不 同情 况 。 

在 数据 量 和 复杂 度 都 不 高 的 情况 下 ， 可 以 利用 ETL 工具 提供 的 组 件 指定 数据 源 和 目标 
库 ，, 通过 对 图 形 的 拖 中 就 可 以 设 定 需要 转换 的 规则 ， 操 作 非 常 方 便 。 在 处 理 大 数据 量 和 复杂 
数据 转换 上 时， 一般 采用 编码 的 方式 进行 设计 和 开发 ， 更 直观 地 实现 业务 转换 的 规则 。ETL 工 
具 (如 Informatica、DataStage、Kettle) 都 是 用 图 形 界面 去 设置 转换 规则 和 编写 代码 程序 ， 
这 需要 ETL 设计 开发 人 员 熟 悉 工 具 中 的 各 种 组 件 和 规则 转换 函数 。 当 然 ， 因 为 这 些 ETL 工 
具 不 可 能 提供 所 有 的 转换 规则 ， 所 以 一 般 ETL 工具 都 提供 特定 语言 环境 (JavaScript 语言 脚 
本 和 存储 过 程 的 调用 功能 ) 来 实现 高 级 转换 功能 。 

3) 元 数据 是 ETL 过 程 的 重要 体现 ， 描 述 了 数据 源 的 属性 、 数 据 源 到 目标 库 的 转换 规 
则 、 数 据 抽取 的 历史 记录 等 内 容 。 

ETL 的 所 有 过 程 一 般 都 是 依赖 元 数据 去 实现 数据 的 清洗 、 转 换 ， 最 后 加 载 到 目标 数据 仓 
库 中 ， 同 时 元 数据 也 是 数据 仓库 项 目 中 不 可 或 缺 的 部 分 。 采 用 元 数据 方法 ， 可 以 实现 数据 抽 
取 流 程 的 自动 化 ， 并 且 保 证 了 数据 抽取 的 及 时 、 准 确 和 完整 。 元 数据 的 概念 在 数据 仓库 中 非 
常 重要 ，ETL 中 存在 大 量 的 数据 源 定义 和 映射 规则 、 转 换 规 则 ， 这 些 都 是 元 数据 需要 管理 和 
存储 的 。 

4) 如 果 构 建 一 个 商业 智能 系统 ， 设 计 开 发 人 员 要 完全 理解 业务 数据 源 系统 是 非常 困难 
的 ， 需 要 花费 大 量 的 时 间 去 整理 数据 源 的 属性 ， 更 多 的 人 喜欢 在 ETL 开始 之 前 就 将 所 有 的 
业务 转换 规则 和 弄 清楚 。 
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在 ETL 过 程 中 ， 如 果 遇 到 质量 有 问题 的 源 数据 ， 一 定 要 正面 对 待 这 些 垃圾 数据 或 者 错 
误 数据 ， 是 丢弃 还 是 处 理 ， 这 些 问 题 都 是 无 法 回避 的 。 如 果 这 些 数 据 不 经 过 人 处理， 那么 在 
ETL 过 程 中 错误 会 逐渐 放大 。 抛 开 数 据 源 质量 问题 ， 我 们 再 来 看 看 ETL 过 程 中 哪些 因素 会 
对 数据 的 准确 性 产生 重大 影响 。 

影响 ETL 数据 质量 的 关键 因素 : 

e 可 能 会 有 一 部 分 数据 因为 客观 或 者 人 为 的 原因 导致 数据 格式 混乱 。 








。 源 系 统 设计 存在 不 合理 性 。 
。 在 开发 过 程 中 ， 因 为 开发 人 员 的 错误 或 者 设计 人 员 对 业务 规则 描述 的 问题 ， 同 样 会 导 
致 数据 质量 出 现 问 题 。 


因为 各 种 因素 都 有 可 能 影响 ETL 数据 的 质量 ， 所 以 保证 数据 质量 的 通常 做 法 如 下 所 示 。 

首先 ， 用 户 必须 遵守 在 数据 仓库 项 目 中 数据 源 的 质量 要 求 ， 对 业务 源 数据 进行 仔细 分 
析 ， 以 便 对 数据 源 的 任何 错误 或 不 规范 的 地 方 有 相应 的 处 理 方法 ， 如 对 错误 数据 舍弃 或 者 
修改 。 

然后 ， 在 保证 数据 源 的 质量 之 后 ， 在 设计 ETL 的 过 程 中 ， 对 每 一 个 步骤 都 应 该 有 一 个 
衡量 数据 质量 的 方法 ， 需 要 重视 ETL 的 每 一 个 过 程 。 对 于 有 误差 的 数据 ， 需 要 追溯 到 根本 
原因 ， 并 且 将 数据 仓库 的 模型 与 数据 质量 的 验证 方法 统一 起 来 ， 实 现 每 一 步 的 ETL 过 程 都 
有 验证 数据 质量 的 脚本 。 

最 后 ， 就 是 规范 业务 流程 ， 保 证 ETL 的 正确 性 ， 避 免 误 删 数据 或 者 重复 加 载 业务 数据 。 

其 中 对 质量 的 衡量 有 下 面 儿 种 方式 ， 如 图 7-39 所 示 。 


区 定义 的 数据 是 否 和 实际 数值 相同 i 
四 肯 标 数据 是 否 符合 业务 的 规则 S| 


















































图 7-39 对 质量 的 衡量 方式 














QD 定义 的 数据 是 否 和 实际 数值 相同 。 

例如 ， 一 个 数据 项 “客户 来 电 等 候 率 ”是 指 在 客户 服务 中 ， 客 人 来 电 等 候 的 时 间 超 过 
1 min 的 次 数 与 客人 来 电 的 总 次 数 之 比 。 随 着 客户 服务 质量 的 提高 ， 客 人 来 电 等 候 率 会 发 生 
变化 ， 当 客人 来 电 等 候 的 时 间 超过 1 min 的 次 数 减少 时 ， 客 户 来 电 等 候 率 也 会 相应 降低 ， 但 
是 如 果 这 个 值 没有 被 更 新 ， 那 么 该 数值 可 能 是 不 正确 的 。 

Q 指标 数据 是 否 符合 业务 的 规则 。 

例如 ,“ 社 会 保险 类 别 ” 是 描述 社会 保险 分 类 的 信息 ， 不 包括 劳动 保障 类 别 里 的 内 容 。 
这 个 指标 如 果 出 现 劳动 保 障 类 别 里 的 信息 ， 就 表明 该 指标 违背 了 业务 规则 。 























(3) 数据 是 否 和 业务 源 系 统 中 的 信息 保持 一 致 。 
该 数据 和 源 系 统 中 公认 的 、 权 威 性 的 信息 必须 保持 一 致 ， 否 则 该 数值 可 能 是 不 正确 的 。 


例如 ， 发 票 中 的 公司 名 称 必 须 和 公司 注册 的 名 称 保 持 一 致 ， 公 司 涉及 的 所 有 票据 名 称 必须 和 
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公司 合同 里 的 名 称 保持 一 致 ， 否 则 该 数值 可 能 不 正确 。 

(4 数据 是 否 违背 自然 规律 或 者 不 符合 常理 。 

如 果 数 据 与 业务 源 系 统 中 公认 的 、 权 威 性 的 信息 保持 一 致 ， 但 是 却 违背 了 自然 规律 或 者 
不 符合 常理 ， 同 样 应 该 分 析 该 数据 是 否 正确 。 


7.5.4 主流 的 ETL 工具 


选择 合适 的 ETL 工具 是 实际 数据 仓库 项 目 中 必须 要 考虑 的 问题 ， 选 择 的 因素 包括 使 用 
成 本 、 技 术 人 员 对 此 工具 的 熟练 程度 、ETL 工具 开发 商业 智能 项 目的 成 功 案例 和 工具 厂商 强 
有 力 的 技术 支持 。 在 实际 项 目 中 ， 常 用 的 工具 是 
PowerCenter 和 DataStage， 一 些 公 司 也 会 用 开源 EE 


的 ETL 工具 ， 如 Kettle。 数据 源 数据 转 0 数据 的 | 元 数据 
从 本 质 上 来 说 ，ETL 工具 的 功能 都 是 相同 | 的 支持 | 换 功 能 | 功能 | 集成 | 的 管理 
的 ， 都 提供 了 一 个 全 面 的 数据 集成 解决 方案 。 | | 


ETL 工具 的 功能 如 图 7-40 所 示 。 

ETL 工具 可 以 使 用 通用 的 接口 (JDBC、 
ODBC) 或 者 自己 厂商 的 专用 接口 去 抽取 源 数据 ， 实 现 了 ETL 对 不 同 数据 源 的 支持 。 

数据 转换 是 ETL 工具 提供 的 最 强大 的 功能 之 一 ， 也 是 ETL 开发 人 员 面 临 的 难度 最 大 的 
问题 之 一 。 一 般 来 说 ，ETL 工具 提供 了 各 种 组 件 来 实现 不 同 的 转换 功能 ， 有 行列 转换 、 过 
滤 、 排 序 、 汇 总 、 分 组 、 计 算 等 常用 的 转换 方式 ; 同时 可 以 实现 代理 主键 的 生成 ，Mapping 
的 调试 功能 ， 抽 取 远 程 源 数 据 ， 各 种 数据 增 量 加 载 方 式 ; 在 转换 过 程 中 还 可 以 支持 数据 比 
较 、 类 型 转换 、 字 段 拆 分 等 功能 ， 数 据 预览 ， 数 据 的 批量 装载 ， 性 能 监控 ， 自 动 调度 ETL 
程序 ， 程 序 出 错 处 理 ， 按 行 、 按 列 的 聚合 汇总 等 功能 。 

随 着 ETL 工具 的 发 展 ，ETL 的 管理 和 调度 功能 得 到 了 加 强 。 管 理 功 能 包括 ETL 程序 的 
备份 与 恢复 ， 版 本 升级 和 管理 。 调 度 功 能 包括 命令 触发 方式 、 事 件 触 发 方式 和 时 间 触 发 方 
式 。 目 前 很 多 公司 都 在 拓展 ETL 的 集成 性 ; 在 原 有 的 基础 上 舱 入 了 公共 的 API， 增 加 了 
JavaScript 语言 脚本 和 存储 过 程 的 调用 功能 ， 增 强 了 ETL 工具 的 灵活 性 。 


7.5.5 ETL 的 作用 


商业 智能 数据 仓库 系统 由 数据 仓库 、 数 据 集 市 、 多 维 数据 分 析 组 成 。ETL 的 作用 就 是 
决 数据 集成 化 的 问题 。ETL 过 程 中 包含 字段 映射 的 自动 匹配 ， 字 段 的 拆 分 和 混合 和 运算， 去 重 
复 记 录 和 记录 间 合 并 或 计算 ， 数 据 的 批量 加 载 ， 自 定义 函数 ， 记 录 的 行 、 列 转换 ， 复 杂 条 件 
的 过 滤 ， 数 据 预览 和 性 能 监控 等 内 容 ， 如 图 7-41 所 示 。 

商业 智能 系统 的 目的 就 是 通过 数据 分 析 为 企业 管理 者 和 决策 者 提供 辅助 决策 支持 。 因 为 
数据 来 源 不 统一 ， 格 式 混乱 、 各 种 类 型 的 “ 脏 ” 数 据 都 增加 了 对 数据 集成 整合 的 难度 ， 所 
以 需要 ETL 提供 一 个 完整 的 方案 来 解决 数据 一 致 性 和 和 集成 性 的 问题 。 

ETL 的 设计 和 实施 是 商业 智能 项 目 中 工作 量 最 大 的 部 分 之 一 ， 也 是 最 重要 的 工作 内 容 之 
一 ， 可 以 说 ETL 是 商业 智能 的 核心 和 灵魂 ， 如 网 7-42 所 示 。 

































































图 7-40 ETL 工具 的 功能 
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数据 预览 和 性 能 监控 
图 7-41 ETL 工具 可 以 实现 的 转换 要 求 图 7-42 ”ETL 是 商业 智能 的 核心 和 灵魂 
7.5.6 详解 ETL 过 程 


我 们 已 经 知道 ETL 是 将 业务 系统 的 数据 经 过 抽取 、 清 洗 、 转 换 之 后 加 载 到 数据 仓库 的 
过 程 ， 通 常情 况 下 ， 商 业 智能 项 目的 ETL 部 分 会 占 整个 项 目的 1/3 以 上 ，ETL 的 设计 会 直 
接 决 定 商业 智能 项 目的 成 败 。 下 面 详细 介绍 ETL 中 的 抽取 、 清 洗 、 转 换 、 加 载 等 各 个 部 分 




















的 内 容 。 
1. 数据 抽取 
数据 抽取 就 是 从 源 系 统 中 获取 业务 数据 的 过 程 。 数 据 的 抽取 需要 充分 满足 商业 智能 系统 





的 决策 分 析 需 要 ， 为 了 保证 不 影响 系统 的 性 能 ， 数 据 抽取 时 需要 考虑 很 多 因素 ， 包 括 抽取 方 
式 、 抽 取 时 间 和 抽取 周期 等 内 容 。 

例如 ,抽取 方式 包括 增 量 抽取 、 全 量 抽取 。 抽 取 时 间 应 该 尽量 在 系统 使 用 的 低谷 时 段 ， 
如 夜间 。 抽 取 的 周期 是 根据 业务 的 需求 制定 的 ， 如 按 小 时 抽取 ， 或 者 按 天 、 月 、 季 度 、 年 等 
抽取 。 在 数据 抽取 之 前 ， 需 要 确定 业务 系统 的 数据 情况 ， 了 解数 据 量 的 大 小 ， 以 及 业务 系统 
中 每 张 表 的 数据 结构 、 字 段 含 义 、 表 之 间 的 关系 等 信息 ， 当 收集 完 这 些 信息 后 ， 才 能 进行 数 
据 抽取 的 设计 开发 等 工作 。 数 据 抽 取 有 下 面 几 种 情况 : 

1) 如 果 业 务 操作 型 数据 库 和 数据 仓库 之 间 的 数据 库 管 理 系 统 完全 相同 ， 那 么 只 需要 建 
立 相 应 的 连接 关系 就 可 以 使 用 ETL 工具 直接 访问 ,或 者 调用 相应 的 SQL 语句 或 者 存储 过 程 。 

2) 如 果 数 据 仓 库 系 统 和 业务 操作 型 数据 库 的 数据 库 管理 系统 不 相同 ， 那 么 比较 简单 的 
方式 是 使 用 ETL 工具 导出 成 文本 文件 或 者 Excel 文件 ， 然 后 再 进行 统一 的 数据 抽取 。 

3) 如 果 需 要 抽取 的 数据 量 非常 庞大 ， 此 时 就 必须 考虑 增 量 抽取 。 通 常用 标记 位 或 者 时 
间 惟 的 形式 ， 每 次 抽取 前 首先 判断 是 否 是 抽取 标记 位 或 者 是 当前 最 近 的 时 间 ， 然 后 再 将 数据 
源 的 数据 抽取 出 来 。 

2. 数据 清洗 

在 一 般 情 况 下 ， 数 据 清洗 的 目的 就 是 选择 出 有 缺陷 的 数据 ， 然 后 再 将 它们 正确 化 和 规范 
化 ， 从 而 达到 用 户 要 求 的 数据 质量 标准 。 其 中 数据 “缺陷 ”可 能 包括 以 下 几 种 情况 : 数值 
重复 、 数 据 缺 失 、 数 据 错误 、 数 据 范 轩 混 消 、 存 在 “及 ”数据 和 数据 不 一 致 等 几 种 情况 ， 
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如 图 7-43 所 示 。 其 中 数值 重复 是 指标 准 不 唯一 ， 很 多 数值 都 代表 着 相同 的 含义 。 数 据 范围 
混 涌 是 指 相 同 的 数值 会 应 用 到 不 同 的 场合 中 ， 代 表 着 不 同 的 含义 。 

第 一 步 ， 需 要 跟 业 务 部 门 进行 沟通 交流 。 为 了 提 
高 数据 的 质量 ， 得 到 标准 的 数据 ， 应 该 首先 过 滤 掉 不 
符合 业务 要 求 的 数据 ， 这 些 数 据 都 违背 业务 规则 ， 数 
据 清 洗 过 程 会 根据 业务 规则 去 修正 这 些 数据 ， 每 个 业 
务 规则 都 规定 了 数据 必须 满足 的 条 件 ， 然 后 通过 ETL 
程序 去 修正 这 些 不 符合 业务 规则 的 数据 。 

第 二 步 ， 为 了 确保 用 于 决策 分 析 的 数据 质量 ， 需 
要 跟 用 户 积极 沟通 ， 将 缺失 的 数据 补 全 ， 最 后 才能 过 
滤 到 数据 仓库 中 。 而 那些 错误 的 数据 ， 应 该 等 用 户 完 
全 修正 后 再 抽取 。 重 复 的 数据 ， 同 样 应 该 等 用 户 确认 
完毕 后 再 进行 抽取 。 我 们 应 该 理解 数据 清洗 是 一 个 非 图 7-43 数据 “缺陷 ”图 
常 费时 、 复 杂 的 工程 ， 需 要 多 个 业务 部 门 的 配合 和 技 
术 开 发 人 员 对 业务 数据 的 理解 ， 通 过 不 断 修 正 问题 和 解决 问题 才能 完成 。 

数据 清洗 的 流程 包括 以 下 几 个 方面 ， 如 图 7-44 所 示 。 
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图 7-44 数据 清洗 的 流程 图 
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(1) 定义 业务 数据 源 
标识 出 满足 需求 的 数据 源 ， 并 且 决 定 什 么 时 候 进行 数据 清洗 。 
(2) 分 析 业 务 数 据 源 
分 析 数 据 源 的 数据 是 否 符合 业务 的 规则 和 定义 ， 是 否 存 在 非 正 常 的 数据 结构 。 
(3) 将 数据 标准 化 
定义 标准 化 格式 的 数据 ， 并 且 加 以 转换 。 
(4) 通过 业务 规则 修正 错误 数据 
定义 是 否 为 正确 数据 的 标准 ， 确 定 如 何 处 理 错误 数据 的 方法 。 
(5) 合并 数据 
将 属于 同一 实体 的 多 个 数据 进行 合并 ， 合 并 时 应 该 有 去 重 的 功能 。 
(6) 总 结 数据 错误 类 型 
通过 总 结 数据 出 错 的 类 型 ， 提 高 清洗 程序 的 完整 性 和 正确 性 ， 从 而 降低 数据 出 现 重大 问 
题 的 可 能 性 。 
3， 数据 转换 
数据 转换 是 指 从 业务 系统 中 抽取 出 源 数 据 ， 然 后 根据 数据 仓库 模型 的 需求 ， 进 行 一 系列 
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数据 转换 的 过 程 。 

我 们 已 经 知道 数据 转换 是 整个 ETL 过 程 中 复杂 程度 相对 较 高 的 过 程 ， 包 括 对 数据 不 一 
致 性 的 转换 ， 业 务 指标 的 计算 和 某 些 数据 的 汇总 ， 为 决策 分 析 系 统 提供 数据 支持 。 其 中 对 数 
据 不 一 致 性 的 转换 就 是 依赖 于 编码 表 的 设计 ， 通 过 电压 等 级 编码 表 ( 见 表 7-3) 将 不 同业 务 
系统 中 相同 类 型 的 数据 进行 转换 ， 即 将 各 个 省 市 的 电力 营销 系统 的 电压 等 级 编码 标准 化 ， 例 
如 将 110 kV 的 编码 统一 设置 成 1，220 kV 的 编码 设置 成 2，380 kV 的 编码 设置 成 3 ，500 kV 
的 编码 设置 成 4，1000 kV 的 编码 设置 成 5， 以 消除 数据 仓库 系统 中 数据 存在 不 一 致 的 
可 能 。 











表 7-3 电压 等 级 编码 表 























电压 等 级 /kV 电压 等 级 编码 
110 1 
220 2 
380 3 
500 4 
1000 5 








通过 建立 程序 代码 编写 规范 ， 与 模型 设计 小 组 共同 制定 编码 规则 ， 不 仅 可 以 提高 数据 模 
型 的 可 靠 性 、 可 读 性 、 可 修改 性 、 可 维护 性 和 一 致 性 ， 而 且 还 会 提高 数据 模型 的 可 继承 性 ， 
促使 每 个 人 的 成 果 可 以 互相 共享 。 同 时 也 应 该 建立 公共 的 编码 表 作 为 数据 转换 的 依据 ， 可 以 
根据 编码 表 制 定 的 业务 规则 进行 数据 的 转换 ， 保 证 数据 仓库 系统 内 部 数据 的 一 致 性 。 例 如 ， 
性 别 在 客户 关系 表 中 用 1 和 0 分 别 代 表 男 和 女 ， 而 在 单位 员工 表 中 可 能 使 用 m 和 f 区 分 男 和 
女 ， 需 要 对 不 同业 务 表 中 相同 类 型 的 业务 含义 进行 统一 和 规范 。 

在 转换 过 程 中 ， 对 粒度 的 分 析 也 是 工作 的 重要 组 成 部 分 ， 因 为 存放 到 数据 仓库 中 的 数据 
对 粒度 的 要 求 可 能 不 相同 ， 用 户 需要 将 低 粒度 的 数据 汇总 形成 决策 分 析 型 的 数据 ， 同 时 完成 
各 种 数据 指标 的 计算 ， 这 都 需要 经 过 ETL 转换 过 程 。 最 后 一 步 ， 将 转换 后 得 到 的 数据 加 载 
到 数据 仓库 中 ， 以 供 企业 高 层 领导 决策 分 析 时 使 用 。 

ETL 转换 过 程 可 能 包括 以 下 几 个 方面 ， 如 图 7-45 所 示 。 

1) 对 空 值 的 处 理 : 如 果 在 转换 过 程 中 捕获 到 某 些 字段 存在 空 值 ， 那 么 在 进行 加 载 时 需 
要 将 空 值 替 换 成 某 一 数据 或 者 直接 进行 加 载 ， 不 做 任何 转换 。 

2) 对 数据 格式 的 规范 化 : 根据 业务 数据 源 中 各 个 字段 的 数据 类 型 ， 进 行 数据 格式 的 规 
范 和 统一 。 例 如 ， 统 一 将 数值 类 型 转化 成 字符 串 类 型 。 

3) 根据 业务 需求 进行 字段 的 拆 分 或 者 


4) 对 缺失 数据 的 替换 ， 根据 业务 需求 i 
对 缺失 数据 进行 替换 。 

5) 根据 业务 规则 对 数据 进行 过 滤 。 根据 编码 表 进 根据 业务 规 由 

6) 根据 编码 表 进行 数据 唯一 性 的 转换 : le ee 
根据 编码 表 制 定 的 业务 规范 进行 数据 的 转换 ， 


实现 数据 仓库 系统 内 部 数据 的 一 致 性 。 ST 

















过 渡 
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4. 数据 加 载 

数据 的 加 载 过 程 就 是 将 已 经 转换 完成 的 数据 存放 到 目标 数据 库 的 过 程 。 这 是 ETL 过 程 
中 的 最 后 一 步 ， 需 要 保证 加 载 工 具 必须 具有 高 效 = 
的 性 能 去 完成 数据 加 载 ， 同 时 还 需要 考虑 数据 加 
载 的 周期 和 策略 。 数 据 加 载 策 略 包括 时 间 改 的 加 | yaw 
载 方式 、 全 表 对 比 的 加 载 方式 、 通 过 读 取 日 志 表 | 加 载 方 式 
进行 加 载 的 方式 、 全 表 删 除 后 再 进行 加 载 的 方 
式 ， 如 图 7-46 所 示 。 

时 间 截 的 加 载 方 式 是 通过 对 源 系 统 的 表 添 加 
时 间 戳 字段， 将 系统 当前 时 间 和 时 间 惟 的 值 进行 对 比 ， 决 定 哪 些 业 务 数据 需要 被 抽取 ， 可 以 
实现 数据 的 递增 加 载 ， 是 比较 常见 的 一 种 加 载 方式 。 

全 表 对 比 的 加 载 方 式 是 在 数据 加 载 前 ， 将 每 条 数据 都 与 目标 表 的 所 有 记录 进行 全 表 对 
比 ,， 根据 主键 值 是 否 相 同 ， 判 断 数据 是 更 新 还 是 插入 。 当 数据 量 比较 大 的 时 候 ， 有 耗 时 长 、 
效率 低 的 缺点 。 通 常 也 对 全 表 对 比 进行 改进 ， 采 用 版 本 号 、 标 记 字 上 段 等 缓慢 变化 维 的 形式 进 
行 增 量 的 抽取 。 

通过 读 取 日 志 表 进行 加 载 的 方式 是 当 源 数据 表 发 生变 化 时 ， 不 断 更 新 日 志 表 的 信息 ， 将 
日 志 表 的 信息 作为 数据 加 载 的 一 个 依据 。 日 志 表 维护 相对 麻烦 ， 会 存在 一 定 风 险 。 

全 表 删 除 后 再 进行 加 载 的 方式 是 在 数据 加 载 前 ， 先 删除 目标 表 的 所 有 数据 ， 然 后 去 加 载 
全 部 的 数据 ， 但 是 不 能 实现 数据 的 递增 加 载 ， 效 率 较 低 ， 实 现 方式 却 相 对 简单 。 


7.5.7 ETL 的 日 志 


ETL 的 日 志 功 能 非常 重要 ， 可 以 记录 ETL 执行 过 程 中 的 每 一 步 信 息 ， 包 括 运行 的 起 始 
时 间 和 结束 时 间 ， 历 史 数 据 的 抽取 记录 ， 数 据 抽取 的 行 数 和 运行 到 某 一 步 的 出 错 信 息 ， 出 错 
时 间 等 内 容 。 当 然 ETL 工具 是 自动 产生 这 些 日 志 信 息 ， 帮 助 系 统 维 护 人 员 进 行 监控 的 。 如 
果 ETL 过 程 中 出 现 错误 ， 将 要 形成 错误 日 志 ， 系 统管 理 员 可 以 通过 邮件 或 者 其 他 方式 接收 
到 该 错误 信息 ， 然 后 对 该 错误 及 时 进行 处 理 。 当 然 ， 我 们 已 经 知道 ETL 的 日 志 信 息 也 可 以 
作为 数据 加 载 的 一 个 策略 ， 通 过 读 取 日 志 表 的 形式 有 计划 地 进行 数据 加 载 。 


7.5.8 ETL 设计 规范 要 点 


ETL 设计 需要 遵循 业务 数据 人 处理 的 要 求 ， 根 据 问题 的 多 样 性 和 不 确定 性 ， 在 设计 过 程 中 
需要 依照 以 下 原则 ( 见 图 7-47) 。 

1) 在 ETL 设计 之 前 ， 需 要 根据 业务 的 需求 确定 所 要 分 析 的 主题 和 数据 结构 。 

根据 数据 仓库 的 模型 ， 考 虑 在 ETL 设计 中 是 否 增加 预 留 字段 和 属性 。 

2) 确定 数据 的 粒度 。 可 以 通过 粗 粒 度 减少 数据 的 总 量 ， 也 可 以 根据 细 粒 度 追 溯 到 最 底 
层 的 数据 ， 探 寻 原 因 。 粒 度 的 大 小 是 业务 需求 和 分 析 的 主题 所 确定 的 。 

3) 确定 ETL 抽取 的 周期 和 时 间 。 根 据 用 户 的 需求 ， 在 设计 ETL 之 前 就 应 该 确定 抽取 的 
时 间 、 抽 取 的 周期 。 

4) 将 增 量 抽取 的 方式 作为 ETL 设计 的 重点 , 减少 数据 抽取 的 压力 和 抽取 的 时 间 。 

5) 通常 数据 的 抽取 和 清洗 可 以 分 成 许多 步 又， 根据 不 同 的 条 件 采 用 不 同 的 处 理 逻 辑 。 
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图 7-46 数据 加 载 策略 


































































































图 7-47 ETL 的 设计 原则 





6) 对 异常 情况 的 处 理 。 网 络 的 中 断 、 数 据 流动 过 程 中 各 种 未 知 的 错误 ， 都 需要 通过 相 
应 的 措施 去 解决 ， 以 保证 数据 的 正确 性 。 

7) 对 ETL 的 运行 管理 和 监控 措施 。 可 以 使 用 ETL 工具 中 的 管理 监控 组 件 对 ETL 进行 
设置 ， 当 ETL 出 现 异常 时 可 以 进行 人 工 干 预 ， 或 者 通过 程序 自动 调度 功能 ， 对 每 一 步 的 错 
误 异 常 都 调用 相应 的 处 理 程序 自动 去 解决 ， 以 保证 数据 的 质量 。 

总 结 : 按照 以 上 设计 原则 ， 可 以 增加 数据 仓库 系统 的 灵活 性 和 扩展 性 ， 从 而 保证 数据 的 
正确 性 ， 降 低 维护 成 本 。 


7.5.9 ETL 的 框架 结构 


ETL 的 框架 结构 包括 ETL 调度 、 抽 取 策略 、 转 换 策略 、 加 载 策 略 等 ， 如 图 7-48 所 示 。 
它 的 每 一 步 包 括 抽 取 、 转 换 、 加 载 的 信息 都 记录 到 日 志文 件 中 ， 以 便 系统 维护 人 员 查 看 ETL 


ETL 服务 器 
ETL 一 度 
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图 7-48 ”ETL 框架 结构 图 
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的 运行 信息 ， 同 时 ETL 又 有 蜡 常 处 理 的 功能 ， 对 于 每 一 步 又 的 异常 都 有 相应 的 处 理 流程 。 

统一 调度 是 ETL 中 较为 重要 的 功能 ， 通 常 有 以 下 两 种 调度 方式 。 

1) 自动 调度 方式 : 可 以 使 用 ETL 工具 ， 每 天 定时 启动 后 台 程 序 ， 自 动 完 成 ETL 的 处 理 
流程 和 加 载 过 程 。 

2) 手工 方式 : 用 户 可 以 通过 前 台 应 用 系统 ， 使 用 它 的 监控 功能 对 一 些 ETL 处 理 程序 进 
行 手工 调度 。 

当然 ， 无 论 采 用 何 种 调度 方式 ， 都 需要 有 报警 和 监控 的 功能 ， 用 来 提醒 管理 人 员 在 处 理 
数据 过 程 中 是 否 出 现 错误 。ETL 框架 结构 是 整个 商业 智能 系统 的 核心 部 分 ， 占 有 重要 地 位 。 


7.5.10 ETL 数据 加 载 


1. 日 常 增 量 处 理 
对 于 日 常数 据 的 增 量 处 理 有 以 下 几 种 方法 ， 如 图 7-49 所 示 。 


自 增长 的 序列 号 方法 











时 间 改 的 方法 更 改 标记 位 方法 
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触发 器 的 方法 Wy (如 ]” 整 表 对 比 的 方法 





图 7-49 ”日常 数据 的 增 量 处 理 方法 














(1) 时 间 惟 的 方法 

对 于 交易 流水 信息 ， 可 以 采用 时 间 戳 的 方式 获取 增 量 数据 。 

(2) 自 增 长 的 序列 号 方法 

可 以 通过 设置 自 增 长 序列 号 的 方式 生成 唯一 主键 。 

(3) 更 改 标 记 位 方法 

通过 定义 一 个 字段 作为 数据 被 更 改 的 标识 。 例 如 ， 设 置 syn_flag 字段 ,初始 化 为 0， 当 
记录 被 修改 时 ， 置 为 1。 

(4) 整 表 对 比 的 方法 

对 于 没有 时 间 戳 的 增 量 数据 ， 同 时 数据 量 又 不 大 ， 可 以 采用 整 表 对 比 的 方式 找 出 增 量 考 





据 ， 如 编码 表 。 
(5) 采用 触发 器 的 方法 
在 源 系 统 数据 表 上 建立 触发 器 ， 当 数据 项 发 生变 化 时 ， 记 录 到 表 中 ,但 是 对 业务 系统 会 


有 一 定 的 性 能 影响 。 

2. 数据 初始 化 处 理 

从 架构 的 角度 来 说 ，ETL 初始 装载 和 日 常 增 量 加 载 的 策略 有 所 不 同 ， 需 要 考虑 以 下 几 个 
方面 ， 如 图 7-50 所 示 。 
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对 数据 源 的 需求 初始 化 前 的 准 








初始 化 过 程 中 的 监控 














图 7-50 需 考 虑 的 因素 


(1) 对 数据 源 的 要 求 

对 于 ODS 系统 来 说 ， 面 临 的 源 系统 可 能 很 多 ， 源 系统 需要 提供 初始 化 到 上 线 时 间 点 的 
完整 信息 。 在 ETL 开发 的 同时 ， 需 要 确保 在 规定 的 时 间 点 内 ，0ODS 系统 可 以 完成 初始 化 装 
载 。0DS 系统 在 上 线 前 需要 将 历史 数据 全 部 导入 到 ODS 系统 的 物理 表 中 。 一 些 细节 问题 也 
需要 考虑 ， 例 如 在 初始 化 装载 前 ， 应 该 先 删除 索引 ， 再 进行 历史 数据 的 加 载 ， 加 载 成 功 后 ， 
再 重新 创建 索引 。 

(2) 初始 化 前 的 准备 

在 初始 化 之 前 ， 应 该 对 历史 数据 进入 到 物理 磁盘 时 的 容量 进行 估算 ， 可 以 先 预 留 较 大 的 
空间 ， 当 初始 化 完成 后 再 进行 缩减 。 

(3) 初始 化 过 程 中 的 监控 

在 数据 初始 化 过 程 中 需要 进行 监控 ， 以 保证 该 过 程 能 够 正常 运行 和 对 错误 的 记录 。 对 于 一 
些 拒绝 掉 的 文件 ， 应 该 通过 事后 分 析 ， 以 决定 是 否 应 该 重新 加 载 ， 或 者 采用 手工 录入 的 方式 。 

(4) 初始 化 事后 检查 

当初 始 化 完成 之 后 ， 需 要 对 数据 进行 检查 ， 以 保证 入 库 数 据 的 准确 性 ， 可 以 进行 自动 化 
统计 ， 或 者 由 业务 部 门 进行 核对 确认 。 

3， 错 误 处 理 与 恢复 

在 ETL 过 程 中 ， 数 据 加 载 可 能 会 出 现 各 种 错误 ， 可 以 利用 作业 调度 平台 与 监控 系统 对 
各 种 异常 情况 进行 处 理 。 

举例 来 说 ， 可 以 在 作业 流程 中 设置 异常 条 件 ， 当 错误 记录 超出 一 定 阔 值 时 ， 则 需要 转 为 
人 工 处 理 。 设 计 的 原则 是 尽量 采用 自动 的 方式 ， 同 时 根据 实际 情况 ， 将 自动 化 处 理 与 人 工 处 
理 相 结 合 。 

4. 异常 情况 处 理 策略 

ETL 过 程 可 能 发 生 的 异常 包括 如 下 几 种 : 

1) 因为 硬件 、 操 作 系统 或 者 网 络 等 原因 造成 的 异常 。 

2) 目标 物理 模型 的 问题 导致 的 异常 。 

3) 因为 人 工 干预 导致 的 异常 。 

对 ETL 过 程 中 的 异常 情况 ， 我 们 应 该 采取 哪些 策略 ; 

1) 如 果 发 生硬 件 、 操 作 系 统 或 者 网 络 导 致 的 异常 ， 可 以 采取 ETL 中 断 处 理 ， 在 系统 运 
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维 人 员 通 知 故障 排除 后 ， 分 析 造 成 的 影响 ， 通 过 手工 干预 的 方式 调整 ETL 过 程 。 

2) 当 物 理 模型 发 生变 更 时 ，ETL 将 执行 中 断 处 理 ， 当 模型 修改 完成 后 ， 调 整 ETL 程 
序 ， 并 重新 进行 处 理 。 

3) 生产 环境 应 该 建立 合理 的 流程 和 规章 制度 ， 尽 量 减 少 人 工 干 预 的 次 数 ， 降 低 因为 人 
工 干 预 造成 的 影响 。 








7.6 商业 智能 一 OLAP 概述 


OLAP (On -jline Analytical Processing， 联 机 分 析 处 理 ) 系统 能 够 帮助 决策 分 析 人 员 从 多 
个 角度 分 析 数 据 。 要 想 理解 OLAP 的 概念 ， 必 须 先 了 解 以 下 几 个 重要 的 概念 。 

1) 维度 : 是 指 人 们 观察 事物 的 角度 ， 如 地 区 维度 、 时 间 维 度 、 产 品 维度 等 。 

2) 层次 : 根据 描述 维度 细 闻 程度 的 不 同 ， 划 分 数据 在 逻辑 上 的 等 级 关系 ， 用 来 描述 维 
度 的 各 个 方面 。 例 如 ， 时 间 维 度 包 括 年 、 季 度 、 月 、 日 等 层次 ， 地 区 维度 包括 国家 、 省 、 
市 、 县 等 层次 。 

维度 和 层次 的 关系 如 图 7-51 所 示 。 

3) 维度 成 员 : 维度 的 取 值 ， 即 维度 中 的 各 个 数据 元 素 的 取 值 。 例 如 ， 地 区 维度 中 具体 
的 成 员 有 英国 、 法 国 、 德 国 、 西 班 牙 。 

维度 和 维度 成 员 的 关系 如 图 7-52 所 示 。 





















































图 7-51 维度 和 层次 的 关系 图 7-52 ”维度 和 维度 成 员 的 关系 


4) 钻 取 : 通过 变换 维度 的 层次 ， 改 变 粒 度 的 大 小 。 它 包括 向 上 钻 取 ( Drill Up) 和 向 
下 钻 取 (Dril Down) 。 向 上 个 取 是 将 细节 数据 向 上 追溯 到 最 高 层次 的 汇总 数据 。 向 下 钻 取 是 
将 最 高 层次 的 汇总 数据 深入 到 最 低层 次 的 细节 数据 中 。 

5) 旋转 : 通过 变换 维度 的 方向 ， 重 新 安排 维 的 位 置 ， 如 行列 互 换 。 

6) 切片 和 切 块 : 在 一 个 或 者 多 个 维度 上 选取 固定 的 值 ， 分 析 其 他 维度 上 的 度量 数据 。 
如 果 其 他 维度 剩余 两 个 ， 则 是 切片 ; 如 果 是 3 个 ， 则 是 切 块 。 

7) 度量 : 多 维 数据 的 取 值 ， 如 销售 额 、 利 润 。 

8) ROLAP: 是 基于 关系 型 数据 库 的 OLAP， 即 以 关系 型 数据 库 为 基础 ， 对 多 维 数据 的 存储 。 

9) MOLAP: 是 基于 多 维 数据 库 的 OLAP， 其 中 切片 、 切 块 是 主要 技术 。 

10) HOLAP: 是 基于 关系 型 和 和 多维 矩阵 型 等 混合 型 的 OLAP 实现 。 

总 结 : OLAP 是 针对 决策 分 析 人 员 和 企业 管理 人 员 从 多 个 角度 对 数据 进行 分 析 ， 随 着 市 
场 竞争 的 日 益 激烈 ，OLAP 的 应 用 越 来 越 广泛 ， 它 可 以 从 不 同 的 角度 去 分 析 各 种 指标 。 例 
如 ， 当 分 析 企业 利润 指标 时 ， 可 能 综合 时 间 维 度 、 地 区 维度 、 产 品类 别 维度 、 客 户 类 别 维度 
270 







































































等 多 种 因素 来 衡量 利润 的 值 是 多 少 ， 最 后 通过 报表 进行 展示 。OLAP 的 最 大 特点 就 是 通过 多 
维 模型 ， 用 户 可 以 动态 地 从 多 个 角度 分 析 数 据 ， 增 加 了 分 析 的 灵活 性 和 时 效 性 ， 大 大 提高 了 
企业 管理 的 效率 ， 这 是 OLAP 发 展 的 根本 原因 之 一 。 


7.6.1 OLAP 系统 与 OLTP 系统 的 区 别 


OLTP (在 线 联机 事务 处 理 ) 系统 主要 面向 细节 性 的 数据 ， 存 储 的 都 是 当前 的 数据 ， 用 
来 支持 日 常 业务 运作 。 这 些 数据 都 是 可 以 更 新 的 ， 数 据 人 处理 量 相对 较 小 。OLAP 系统 主要 是 
综合 的 、 并 且 经 过 提炼 的 数据 ， 而 且 主 要 是 历史 数据 ， 不 可 修改 ， 数 据 处 理 量 相对 较 大 ， 主 
要 面向 决策 分 析 处 理 。 它 们 的 区 别 如 图 7-53 所 示 。 


OLTP 系统 OLAP 系统 




















。 细节 性 数据 。 综 合 和 经 过 提炼 的 
。 当 前 数据 
。 可 更 新 的 


。 数 据 处 理 量 较 小 

。 面向 事务 处 理 。 数 据 处 理 量 较 大 

。 面向 业务 操作 人 员 。 面 向 决策 分 析 处 理 
。 面 向 决策 管理 层 人 员 


















































图 7-53 ”OLTP 系统 和 OLAP 系统 的 区 别 





7.6.2 ”OLAP 的 实现 方法 


OLAP 有 多 种 实现 方法 ， 根 据 存储 数据 方式 的 不 同 ， 可 以 分 为 MOLAP、ROLAP、 
HOLAP， 如 图 7-54 所 示 。 








图 7-54 根据 存储 方式 划分 的 OLAP 的 实现 方法 


ROLAP (Relational OLAP) 表示 基于 关系 型 数据 库 的 OLAP 实现 。 它 的 技术 依赖 于 关系 
型 数据 ， 以 关系 型 数据 库 为 核心 ， 以 关系 型 结构 对 多 维 数据 进行 数据 存储 和 展现 。 通 常 
ROLAP 将 多 维 数据 分 成 事实 表 和 维 表 ， 事 实 表 存 储 的 都 是 指标 数据 和 维 表 的 关键 字段 值 ， 
维 表 多 数 存储 维度 的 层次 、 维 度 的 成 员 值 等 信息 。 事 实 表 以 存储 的 产品 ID 、 产 品类 型 ID 、 
地 址 ID 和 时 间 ID 作为 连接 维 表 的 关键 字段 ， 以 销售 数量 作为 指标 数据 。 

维 表 包 括 产 品 维 表 、 时 间 维 表 、 产 品类 型 维 表 、 地 理 位 置 维 表 。 维 表 和 事实 表 通 过 主 外 
关键 字 关 联 在 一 起 ， 形 成 了 星 形 模式 ， 如 图 7-55 所 示 。 

对 于 层次 复杂 的 维 ， 可 以 使 用 多 个 表 来 描述 ， 这 种 对 星 形 模式 的 扩展 称 为 雪花 形 模式 。 
事实 表 以 存储 的 产品 ID 、 产 品类 型 ID 、 地 址 ID 和 时 间 ID 作为 关联 维 表 的 关键 字段 ， 以 销 
售 数量 作为 指标 数据 。 维 表 有 产品 维 表 、 时 间 维 表 、 产 品类 型 维 表 、 地 址 维 表 ， 地 址 维 表 又 
包括 国家 、 省 级 、 地 市 等 维 表 ， 如 图 7-56 所 示 。 通 过 最 大 限度 地 减少 数据 存储 量 以 及 关联 

277 









































较 小 的 维 表 来 改善 数据 查询 的 性 能 ， 这 是 典型 的 雪人 花形 模式 。 














图 7-55 ROLAP 的 多 维 关系 图 ( 
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地 址 ID 
时 间 ID 
销售 数量 





产品 
类 型 
维 表 


星 形 模式 ) 





图 7-56 ”ROLAP 的 多 维 关系 图 (雪花 形 模式 ) 


MOLAP ( Multidimensional OLAP) 表示 基于 多 维 数 
据 的 OLAP 实现 。 它 的 技术 手段 主要 有 “ 切 块 ”、“ 切 
片 ” ， 数 据 检 索 速 度 较 快 ， 但 是 生成 立方 体 的 时 间 较 
长 ， 数 据 存储 在 多 维 立 方 体 中 。MOLAP 多 维 立 方 体 如 
图 7-57 所 示 。 

HOLAP (Hybrid OLAP) 表示 基于 混合 型 的 OLAP 
实现 。 它 的 技术 主要 结合 MOLAP 和 ROLAP 两 种 技术 的 
优点 。 
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图 7-57 MOLAP 多 维 立方 体 


7.6.3 ”OLAP 的 基本 目标 和 特点 


OLAP 的 基本 目标 就 是 支持 决策 分 析 和 多 维 数 据 查 询 。OLAP 通过 对 信息 的 各 种 形式 的 
存 取 ， 满 足 企 业 决 策 人 员 和 管理 人 员 对 复杂 查询 的 处 理 ， 并 且 将 结果 提供 给 决策 分 析 人 员 ， 
使 他 们 对 企业 的 运营 状况 有 更 深入 的 了 解 ， 能 够 制定 出 正确 的 决策 方针 。OLAP 是 引领 企业 
发 展 的 “灯塔 ”。 

OLAP 系统 的 特点 包含 以 下 几 个 方面 。 

1) 丰富 的 报表 展示 功能 : OLAP 系统 一 般 有 丰富 的 报表 展示 功能 ， 如 柱 形 图 、 折 线 图 、 
饼 形 图 。 

2) 数据 访问 和 多 维 分 析 的 能 力 : 提供 给 用 户 数 据 访问 和 多 维 分 析 的 能 力 ， 并 以 用 户 希 
望 的 方式 进行 展示 。 

3) 快速 的 数据 分 析 能 力 : OLAP 系统 有 秒 级 的 数据 分 析 能 

OLAP 的 特点 如 图 7-58 所 示 。 








数据 访问 
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图 7-58 ”OLAP 的 特点 





7.6.4 建立 OLAP 的 过 程 
建立 OLAP 的 过 程 如 图 7-59 所 示 。 


定义 ROLAP 模型 


2 WW 
设计 星 形 模型 品 
构造 MOLAP 模型 | 


串 





7-59 建立 OLAP 的 过 程 


为 了 提高 OLAP 系统 的 效率 ， 设 计数 据 仓 库 时 应 该 考虑 如 下 因素 : 
1) 为 事实 表 和 维度 表 中 的 关键 字 创 建 索 引 ， 以 提高 数据 查询 的 效率 。 同 一 类 数据 尽 可 
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能 使 用 一 个 事实 表 ， 以 减少 表 之 间 的 关联 。 

2) 事实 表 中 尽量 不 要 包含 汇总 类 型 的 数据 。 

3) 维 表 的 设计 应 该 符合 第 三 范式 的 约束 ， 维 表 中 不 要 存储 无 关 的 数据 。 

4) 数据 仓库 设计 的 好 坏 直接 影响 建立 OLAP 系统 的 难 易 程度 和 效率 ， 同 时 OLAP 系统 
又 是 数据 仓库 系统 的 一 种 多 维 展现 方式 。 


7.6.5 ”OLAP 的 实施 过 程 


OLAP 系统 的 实施 一 般 过 程 ( 见 图 7-60) 包括 以 下 几 个 步骤 : 

1) 源 系统 经 过 ETL 过 程 装载 到 ODS 数据 缓冲 区 中 ， 目 的 是 将 所 有 的 业务 数据 集成 
起 来 。 

2) 从 0DS 数据 缓冲 区 中 将 数据 抽取 到 ODS 统一 信息 视图 区 ， 目 的 是 使 用 户 能 够 通过 
ODS 统一 信息 视图 区 获得 跟 某 个 主题 域 相 关 的 实时 数据 。 

3) 将 数据 从 ODS 统一 信息 视图 区 抽取 到 数据 仓库 中 。 

4) 数据 集 市 里 的 数据 在 数据 仓库 中 经 过 转换 、 汇 总 计算 获取 ， 直 接 支 撑 OLAP 多 维 
分 析 。 

5) 最 后 OLAP 系统 支持 多 维 数据 分 析 。 

其 中 ODS 数据 缓冲 区 和 ODS 统一 信息 视图 区 可 以 合并 成 一 个 ， 同 时 具有 数据 缓冲 和 集 
成 的 功能 。 





, | a 
源 系 统 ODS 数据 缓冲 区 ”ODS 统一 信息 视图 区 




















图 7-60 ”OLAP 系统 的 实施 过 程 


7.6.6 ”OLAP 模型 的 设计 与 实现 

(1) 了 解 用 户 的 需求 

作为 解决 方案 的 提供 者 ， 我 们 需要 理解 业务 规则 ， 了 解 当前 的 业务 状况 ， 不 仅 需 要 和 系 
统 相 关 人 员 进 行 交流 ， 还 需要 和 系统 的 设计 者 和 开发 者 进行 沟通 。 

首先 ， 对 用 户 进行 分 类 ， 理 解 用 户 对 数据 的 可 用 性 和 访问 速度 的 要 求 。 其 次 ， 需 要 了 解 
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不 同 用 户 对 系统 的 访问 频率 ， 每 类 用 户 的 数量 和 需要 
分 析 的 数据 量 是 多 少 。 青 次 ， 需 要 大 致 清楚 系统 的 数 
据 总 量 应 该 是 多 少 。 当 我 们 已 经 了 解 了 用 户 和 数据 源 
的 基本 情况 后 ， 可 以 考虑 系统 能 够 满足 客户 的 需求 有 
哪些 。 用 户 、 开 发 者 、 管 理 者 是 通过 需求 文档 进行 交 
流 沟通 的 ， 如 图 7-61 所 示 。 而 用 户 最 关心 的 问题 就 
是 开发 者 是 否 完成 了 需求 文档 所 要 求 的 功能 特性 。 

(2) 逻辑 模型 的 设计 

通常 所 说 的 数据 模型 一 般 有 两 个 层次 : 逻辑 层 、 
物理 层 。 人 逻辑 模型 描述 现实 世界 的 内 在 规律 和 业务 规 
则 。 物 理 模型 描述 数据 库 内 部 存储 的 具体 实现 。 
OLAP 模型 是 一 个 逻辑 概念 ， 主 要 是 对 数据 进行 多 角 
度 的 分 析 ， 以 便 为 企业 决策 者 和 管理 者 提供 各 种 信息 

















开发 者 
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户 的 需求 














图 7-61 














和 知识 。“ 多 维 结构 ”是 OLAP 世界 的 核心 ， 而 多 维 模型 通过 维度 、 层 次 、 度 量 三 者 之 间 的 


关系 分 析 数 据 。 





举例 来 说 ， 如 果 有 一 个 销售 系统 ， 度 量 值 可 能 包括 销售 额 、 成 本 、 利 润 ， 维 度 包括 时 

















间 、 产 品类 型 。OLAP 逻辑 模型 的 设计 就 像 是 桥梁 ， 


端 是 用 户 的 需求 ， 为 一 端 是 业务 数据 


源 。 销 售 额 、 成 本 、 利 润 是 需要 展现 、 存 储 的 内 容 ， 随 着 时 间 、 产 品类 型 的 变化 而 变化 。 


(3) OLAP 的 分 析 过 程 


首先 根据 逻辑 模型 定义 OLAP 多 维 模型 ， 在 定义 模型 的 过 程 中 ， 需 要 根据 业务 需求 定义 
“立方 体 ”"， 分析 方 法 有 “切片 ”和 “ 切 块 "。 例 如 ， 在“ 利润、 地 区 、 时 间 ” 三 维 立方 体 
中 进行 切 块 和 切片 ， 可 得 到 各 地 区 、 各 产品 的 销售 利润 情况 ， 如 图 7-62 所 示 。 











口 利润 





日 销售 额 








北京 天 津 上 海 广州 





图 7-62 ”商业 智能 OLAP 的 例子 


7.7 传统 商业 智能 和 未 来 商业 智能 的 关系 


对 于 传统 商业 智能 和 未 来 商业 智能 的 区 别 ， 有 这 样 一 种 观点 : 如 图 7-63 所 示 ， 传 统 的 
商业 智能 只 是 提供 类 似 汽车 后 视 镜 的 作用 ， 只 能 看 到 行驶 过 的 路 程 ， 而 不 能 看 到 远方 ， 即 传 
统 商业 智能 通过 查看 历史 数据 ， 分 析 以 前 的 情况 。 事 实 上 ， 传 统 的 商业 智能 有 查询 、 报 表 展 
示 、 多 维 分 析 、 数 据 挖掘 的 内 容 ,， 已 经 包含 了 预测 分 析 的 能 力 。 因 此 ， 上 述 观点 是 不 正 




















确 的 。 
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未 来 商业 智能 
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到 7-63 ”传统 的 商业 智能 和 未 来 商业 智能 区 别 的 某 种 观点 


而 未 来 商业 智能 真正 要 解决 的 问题 是 : 

1) 建立 实时 动态 的 数据 仓库 。 因 为 传统 意义 上 的 数据 仓库 是 基于 历史 数据 分 析 ， 而 动 
态 数据 仓库 是 基于 前 端 应 用 ， 增 加 对 非 结构 化 数据 的 处 理 ， 可 以 大 大 缩短 响应 的 时 间 。 

2) 用 户 对 数据 可 视 化 的 要 求 会 越 来 越 多 ， 同 时 增强 了 对 商业 智能 实时 性 的 要 求 ， 甚 至 
在 将 来 ， 人 们 可 以 将 商业 智能 转移 到 手机 移动 终端 上 ， 实 现 动态 分 析 和 实时 分 析 等 。 




















小 结 


。 我 们 对 商业 智能 做 一 个 简单 的 定义 ， 那 就 是 : 帮助 用 户 把 一 些 数据 转化 成 具有 商业 价值 
的 ， 而 且 可 以 获取 的 信息 和 知识 ， 同 时 在 最 恰当 的 时 候 ， 通 过 某 种 方式 把 信息 传递 给 需 
要 的 人 。 从 专业 的 角度 来 说 ， 商 业 智能 就 是 利用 数据 仓库 、 数 据 分析 和 挖掘 技术 ， 以 抽 
取 、 转 换 、 查 询 、 分 析 和 预测 为 主 的 技术 手段 ， 帮 助 企业 完成 决策 分 析 的 一 套 解 决 方案 。 
。 商业 智 能 的 实施 方法 : 
1) 项 目 规划 : 主要 包括 项 目前 期 的 准备 、 业 务 现状 的 调研 、 目 前 系统 的 现状 分 析 。 分 
析 内 容 包 括 业 务 需 求 的 定义 和 系统 实现 的 目标 ， 系 统 运行 环境 的 定义 ， 系 统 的 框架 结构 定 
义 ， 逻辑 模型 的 设计 等 。 
2) 系统 设计 与 实现 : 主要 包括 系统 体系 结构 的 设计 ， 物 理 数 据 库 的 设计 ， 数 据 抽取 、 
转换 和 加 载 的 实现 ， 前 端 应 用 的 开发 ， 元 数据 的 管理 等 内 容 。 
3) 系统 调 优 : 指 逻辑 、 物 理 模型 的 调整 ， 系 统 性 能 的 调 优 。 
4) 系统 运行 及 维护 : 指 编写 系统 运行 及 维护 手册 ， 以 及 用 户 操作 手册 、 培 训 教材 等 文档 。 
。 商业 智能 的 实施 步骤 : 
(1) 定义 需求 
需求 分 析 是 商业 智能 项 目 重要 的 一 步 ， 需 要 描述 项 目 背 景 与 目的 、 业 务 范 围 、 业 务 目 
标 、 业 务 需 求 和 功能 需求 等 内 容 ， 明 确 企业 对 商业 智能 的 期 望 和 需要 分 析 哪 些 主题 等 方面 。 
(2) 数据 仓库 模型 的 建设 
在 系统 设计 、 开 发 之 前 ， 业 务 人 员 和 设计 人 员 共 同 参与 概念 模型 的 设计 ， 核 心 的 业务 概 
念 在 业务 人 员 和 设计 人 员 之 间 达 成 一 致 。 在 系统 设计 开发 时 ， 业 务 人 员 和 系统 设计 人 员 共 同 
参与 逻辑 模型 的 设计 。 最 后 设计 开发 人 员 以 逻辑 模型 为 基础 进行 物理 模型 的 设计 。 
(3) 数据 抽取 、 清 洗 、 转 换 、 加 载 
抽取 主要 负责 将 数据 仓库 需要 的 数据 从 各 个 业务 系统 中 抽取 出 来 。 如 果 每 个 业务 系统 的 
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数据 情况 各 不 相同 ， 可 能 对 每 个 数据 源 都 需要 建立 独立 的 抽取 流程 ， 每 个 流程 都 需要 使 用 接 
口 将 源 数据 传送 给 下 一 环节 ， 即 清洗 与 转换 阶段 。 通 过 数据 抽取 程序 ， 可 以 从 业务 源 系 统 中 
不 断 地 将 数据 抽取 出 来 ， 抽 取 周 期 可 以 设 定 为 某 个 固定 时 间 。 

(4) 建立 商业 智能 分 析 报 表 

商业 智能 分 析 报 表 通 过 对 数据 仓库 的 数据 分 析 ， 使 企业 的 高 层 领导 可 以 多 角度 地 查看 企 

业 的 运营 情况 ， 并 且 按 照 不 同 的 方式 去 探查 企业 内 部 的 核心 数据 ， 从 而 更 好 地 帮助 企业 决策 
人 员 对 公司 未 来 经 营 状况 进行 预测 和 判断 。 

。 商业 智能 项 目 成 功 的 关键 因素 : 

1) 企业 高 级 领导 层 对 商业 智能 项 目的 支持 和 雄厚 的 资金 是 项 目 成 功 的 关键 因素 之 一 。 

2) 拥有 实力 雄厚 的 技术 团队 。 技 术 团队 成 员 不 仅 精 通商 业 智能 相关 技术 ， 同 时 也 熟悉 

相关 的 业务 规则 和 开发 流程 。 

3) 商业 智能 项 目 团队 的 协同 合作 能 力 。 项 目的 管理 者 需要 保证 团队 中 每 个 成 员 分 工 明 

确 ， 沟 通 及 时 ， 并 且 需 要 各 部 门 之 间 有 和 良好 的 合作 能 力 。 总 之 ， 商 业 智能 项 目的 实施 是 一 个 
长 期 的 不 断 完 善 的 过 程 。 

。 完整 的 商业 智能 系统 需要 以 下 几 种 核心 的 技术 : 

(1) 数据 仓库 

(2) 数据 挖掘 和 分 析 

(3) ETL 处 理 技术 

(4) 联机 分 析 处 理 (OLAP) 技术 

(5) 可 视 化 分 析 

(6) 大 数据 技术 

(7) 商业 智能 元 数据 管理 

e 数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 非 易 失 的 、 反 映 历 史 变 化 的 、 随 着 时 间 的 流逝 
发 生变 化 的 数据 集合 ， 它 主要 用 来 支持 企业 管理 人 员 的 决策 分 析 。 

。 数据 集 市 就 是 满足 特定 的 部 门 或 者 用 户 的 需求 ， 按 照 多 维 的 方式 进行 存储 ， 包 括 定义 
维度 、 需 要 计算 的 指标 、 维 度 的 层次 等 ， 生 成 面向 决策 分 析 需 求 的 数据 立方 体 。 数 据 
仓库 体系 结构 中 增加 了 数据 集 市 ， 数 据 集 市 又 可 以 看 做 部 门 级 的 小 型 数据 仓库 。 

e ODS (Operational Data Store， 操 作 数据 存储 ) 是 一 个 面向 主题 的 、 集 成 的 、 可 变 的 、 
反映 当前 细节 的 数据 集合 。 它 主要 用 于 文 持 企业 处 理 业 务 应 用 和 存储 面向 主题 的 、 即 
时 性 的 集成 数据 ， 为 企业 决策 者 提供 当前 细节 性 的 数据 ， 通 常 作为 数据 仓库 的 过 渡 
阶段 。 

e ODS 的 设计 原则 包括 可 扩展 性 、 高 可 用 性 、 可 重用 性 和 高 性 能 。 

e ETL 是 数据 抽取 (Extract) 、 转 换 (Transform) 、 加 载 (Load) 的 英文 简写 。 它 的 一 般 
过 程 是 指 : 首先 将 源 数 据 抽 取出 来 ， 然 后 经 过 数据 的 清洗 、 转 换 ， 最 后 加 载 到 目标 表 
中 。ETL 过 程 一 般 都 是 批量 操作 的 。 

e 维度 : 是 指 人 们 观察 事物 的 角度 ， 如 地 区 维度 、 时 间 维 度 、 产 品 维度 等 。 

e 层次 : 根据 描述 维度 细节 程度 的 不 同 ， 划 分 数据 在 逻辑 上 的 等 级 关系 ， 用 来 描述 维度 
的 各 个 方面 。 例 如 ， 时 间 维 度 包 括 年 、 季 度 、 月 、 日 等 层次 ， 地 区 维度 包括 国家 、 
省 、 市 、 县 等 层次 。 
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e 维度 成 员 : 维度 的 取 值 ， 即 维度 中 的 各 个 数据 元 素 的 取 值 。 例如， 地 区 维度 中 具体 的 
成 员 有 英国 、 法 国 、 德 国 。 

e 钻 取 : 通过 变换 维度 的 层次 ， 改 变 粒 度 的 大 小 。 它 包括 向 上 钻 取 (Drill Up) 和 向 下 
钻 取 (Dril Down) 。 向 上 钻 取 是 将 细节 数据 向 上 追溯 到 最 高 层次 的 汇总 数据 。 向 下 钻 
取 是 将 最 高 层次 的 汇总 数据 深入 到 最 低层 次 的 细节 数据 中 。 

e 旋转 : 通过 变换 维度 的 方向 ， 重 新 安排 维 的 位 置 ， 如 行列 互 换 。 

e 切片 和 切 块 : 在 一 个 或 者 多 个 维度 上 选取 固定 的 值 ， 分 析 其 他 维度 上 的 度量 数据 。 如 
果 其 他 维度 剩余 两 个 ， 则 是 切片 ;如 果 是 3 个 ， 则 是 切 块 。 

e 度量 : 多 维 数据 的 取 值 ， 如 销售 额 、 利 润 。 

e ROLAP: 是 基于 关系 型 数据 库 的 OLAP， 即 以 关系 型 数据 库 为 基础 ， 对 多 维 数据 的 
存储 。 

。 MOLAP: 是 基于 多 维 数据 库 的 OLAP， 其 中 切片 、 切 块 是 主要 技术 。 

e HOLAP: 是 基于 关系 型 和 多 维 抢 阵型 等 混合 型 的 OLAP 实现 。 


























本 章 目 标 

通过 前 几 章 的 学 习 ， 我 们 了 解 了 商业 智能 的 定义 、 商 业 智能 的 功能 、 商 业 智 能 的 发 展 趋 
、 商 业 智 能 的 实施 方法 和 步 又 、 关 于 商业 智能 的 核心 技术 、 数据 仓库 理论 、 数据 仓库 的 特 
、 数 据 集 市 理论 、ODS 理论 等 知识 。 

学 习 本 章 后 ,读者 将 掌握 : 

。 商 业 智能 架构 原则 

。 商业 智能 架构 典型 应 用 

。 商业 智能 具有 的 功能 

e 商业 智能 未 来 的 发 展 趋势 和 方向 

e 商业 智能 的 传统 架构 

。 传统 商业 智能 的 特点 

e 未 来 商业 智能 的 特点 

e 旅游 行业 - 分 析 型 客户 关系 管理 的 商业 智能 体系 

e 分 析 型 客户 关系 管理 商业 智能 体系 架构 

e 实时 的 商业 智能 架构 

e 电信 行业 实时 商业 智能 架构 体系 
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8.1 商业 智能 架构 概述 


8.1.1 商业 智能 架构 原则 和 典型 应 用 


商业 智能 的 建设 是 一 个 战略 性 的 工程 ， 它 直接 影响 到 企业 未 来 的 发 展 方向 ， 对 于 商业 智 
能 的 架构 应 该 遵循 以 下 几 项 原则 ， 如 图 8-1 所 示 。 


安全 性 -| 各 可 信和 性 


图 8-1 商业 智能 架构 原则 























商业 智能 应 该 建立 在 可 信 的 数据 基础 之 上 ， 完 成 商业 智能 的 建设 需要 投入 大 量 的 人 力 和 
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财力 ， 具 体 来 说 ， 在 开发 技术 和 手段 上 具有 先进 性 和 灵活 性 。 在 业务 上 ， 需 要 满足 未 来 竞争 
的 要 求 。 

。 实用 性 

建立 商业 智能 的 目的 是 服务 于 决策 过 程 ， 前 期 带 来 的 效益 可 以 促进 后 期 的 开发 ， 在 开发 
时 选择 工期 较 短 、 重 要 的 和 见效 快 的 部 门 作 为 突破 口 ， 保 障 系 统 的 实用 性 和 可 操作 性 。 

。 安全 性 

因为 商业 智能 可 能 会 涉及 机 密 数 据 ， 所 以 必须 保证 其 安全 性 。 特 别 是 在 查询 系统 多 样 化 
的 情况 下 ， 商 业 智 能 必须 符合 安全 性 的 要 求 。 












































。 可 信 性 
集 
商业 智能 作为 决策 支持 系统 ， 同 时 产生 大 量 的 报 AS 
表 。 商 业 智能 系统 应 该 具有 可 信人 性。 pls 
下 面 我 们 分析 一 下 关于 商业 智能 的 典型 应 用 。 a 
商业 智能 是 收集 、 管 理 和 分 析 数 据 ， 同 时 将 数据 转 本 ee 
化 成 有 用 信息 的 过 程 ， 如 图 8-2 所 示 。 0 
商业 智能 系统 从 企业 的 日 常数 据 中 开发 基于 事实 的 信息 ， 辅 助 企业 做 出 更 好 的 商业 决 





策 ， 提 高 企业 运营 效率 和 决策 分 析 的 能 力 。 可 以 帮助 企业 完成 风险 分 析 、 欺 诈 监测 、 财 务 分 
析 等 。 商 业 智 能 系统 是 一 个 决策 支持 系统 ， 它 是 在 数据 仓库 的 基础 上 ， 利 用 各 种 挖 气 工 具 获 
得 信息 和 知识 。 目 前 来 说 ， 金 融 行 业 、 通 信行 业 、 制 造 行业 、 零 售 行业 、 医 疗 行业 、 政 府 机 
构 等 已 经 逐步 开始 应 用 商业 智能 。 








医疗 行业 





8-3 ”商业 智能 的 行业 应 用 


商业 智能 的 典型 应 用 包括 经 营 分 析 、 绩 效 管理 、 战 略 决策 支持 、 产 品 管理 和 创新 、 客 户 
关系 管理 和 风险 管理 等 ， 如 图 8-4 所 示 。 

(1) 经 营 分 析 

对 于 企业 的 经 营 分 析 可 以 包括 指标 分 析 和 财务 分 析 等 内 容 。 指 标 分 析 是 针对 业务 流程 相 
关 指 标的 分 析 。 例 如 ， 销 售 率 、 利 润 率 和 库存 量 等 。 财 务 分 析 是 针对 财务 数据 中 的 费用 文 
出 、 利 润 等 指标 的 分 析 。 

(2) 绩效 管理 

企业 管理 人 员 利 用 商业 智能 工具 衡量 员工 的 工作 绩效 情况 。 
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经 营 分 析 


产品 管理 和 创新 


绩效 管理 












风险 管理 


图 8-4 商业 智能 的 典型 应 用 


(3) 战略 决策 支持 

通过 对 各 类 数据 的 高 度 概括 和 分 析 ， 辅 助 企业 高 层 进行 战略 决策 。 

(4) 风险 管理 

利用 商业 智能 技术 ,降低 企业 的 风险 。 例 如 ， 通 过 发 现 客 户 的 异常 情况 ,快速 采取 措 
施 ， 提 高 企业 的 抗 风 险 能 

(5) 客户 关系 管理 

利用 商业 智能 技术 ， 分 析 客 户 的 购买 习惯 和 喜好 ， 改 进 服务 和 产品 的 质量 ， 提 高 客户 的 
忠诚 度 。 

(6) 产品 管理 和 创新 

利用 商业 智能 技术 ， 通 过 对 历史 数据 的 分 析 ， 加 强 对 产品 的 改进 能 力 和 管理 能 力 ， 同 时 
提高 产品 的 创新 能 力 和 推广 能 力 。 


8.1.2 商业 智能 具有 的 功能 


商业 智能 产品 应 该 建立 在 稳定 的 平台 上 ， 它 可 以 提供 数据 关联 分 析 的 功能 、 数 据 监控 的 
功能 、 数 据 展 示 功 能 和 数据 输出 功能 ， 如 图 8-5 所 示 。 














数据 监控 
的 功能 




















图 8-5 商业 智能 具有 的 功能 








(1) 数据 关联 分 析 的 功能 
关联 分 析 用 于 发 现 事物 之 间 的 关联 性 ， 当 一 个 事件 发 生 时 ， 另 一 个 事件 也 可 能 会 发 生 。 
目的 是 发 现 有 实用 价值 的 事件 。 例 如 ， 对 于 商业 银行 的 客户 ， 分 析 可 能 进行 股票 交易 和 债券 
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交易 的 概率 ， 扩 展 产品 范围 ， 吸 引 更 多 的 客户 。 
(2) 数据 监控 的 功能 
可 以 设置 条 件 ， 使 符合 条 件 的 数据 显示 出 来 ， 引 起 管理 人 员 的 注意 。 
(3) 数据 展示 功能 

将 结果 数据 以 茶 种 形式 展示 出 来 ， 以 文 持 客户 的 数据 分 析 和 决策 。 

(4) 数据 输出 功能 

将 结果 数据 以 某 种 形式 输出 ， 以 支持 客户 的 数据 分 析 和 决策 。 


8.1.3 商业 智能 未 来 的 发 展 趋势 和 方向 


传统 商业 智能 具有 以 下 几 个 特点 : 查询 、 报 表 、 多 维 分 析 和 统计 分 析 、 数 据 挖掘 ， 如 
图 8-6 所 示 。 

但 是 传统 的 商业 智能 具有 以 下 几 个 方面 的 局 限 性 : 

1) 传统 商业 智能 的 上 销 、 下 销 和 比较 功能 很 难 满 
是 一 些 特殊 用 户 的 分 析 需 求 。 

2) 传统 商业 智能 的 数据 准确 性 、 实 时 性 经 受 着 重 
大 的 考验 。 

3) 传统 商业 智能 很 难处 理 庞大 的 数据 ， 只 有 通过 
大 数据 技术 才能 访问 和 使 用 海量 的 数据 ， 以 及 各 种 非 结 
构 化 数据 。 图 8-6 传统 商业 智能 的 特点 

从 根本 上 来 说 ,传统 商业 智能 更 侧重 历史 分 析 ， 而 未 来 商业 智能 更 专注 于 对 业务 流程 的 
整合 ， 以 实现 动态 分 析 和 实时 分 析 。 

举例 来 说 ， 传 统 商业 智能 更 加 擅长 于 对 历史 数据 的 同期 对 比 、 产 品 分 析 、 企 业 的 绩效 管 
理 和 统计 报表 分 析 等 内 容 ， 如 图 8-7 所 示 。 


产品 分 析 统计 报表 分 析 
同期 对 比 企业 的 绩效 管理 


AAA 
PS < Re 


8-7 ”传统 商业 智能 的 优势 












































对 于 未 来 商业 智能 来 说 ， 它 更 专注 于 对 企业 的 风险 管理 、 提 供 各 种 实时 报表 和 实时 服 
务 、 实 现实 时 或 者 准 实时 的 精准 营销 、 完 成 对 业务 的 监控 功能 等 ， 如 图 8-8 所 示 。 

我 们 总 结 一 下 商业 智能 的 发 展 趋势 ， 

对 于 传统 型 的 商业 智能 ， 主 要 是 基于 历史 数据 做 出 决策 和 分 析 。 它 面向 企业 的 决策 者 和 
分 析 者 ， 主 要 以 查询 为 主 。 

对 于 未 来 商业 智能 ， 主 要 是 基于 实时 的 数据 做 出 分 析 和 决策 。 它 可 以 面向 一 线 的 客户 经 
理 和 决策 者 ， 通 过 实时 捕获 的 数据 ， 获 取 最 新 的 信息 和 知识 。 它 可 以 提高 商业 智能 对 业务 的 
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未 来 商业 智能 
的 应 用 


.” 和 
精准 营销 9 人 妊 


图 8-8 未 来 商业 智能 的 应 用 

















即时 指导 作用 ， 同 时 快速 地 响应 事件 ， 提 升 企业 的 竞争 力 。 一 般 来 说 ,统计 报表 分 析 表 示 已 
经 发 生 了 什么 ，OLAP 分 析 和 即席 查询 代表 着 为 什么 发 生 ， 数 据 挖掘 会 预测 将 来 发 生 什么 ， 
而 未 来 商业 智能 将 要 解决 正在 发 生 什么 ， 如 图 8-9 所 示 。 
正在 发 生 什 么 

















将 会 发 生 什 么 ! 








已 经 发 生 





8-9 未 来 商业 智能 的 作用 


未 来 商业 智能 的 方向 : 

1) 建立 实时 动态 数据 仓库 ， 一 般 来 说 ,传统 数据 仓库 是 基于 历史 数据 进行 分 析 的 ， 实 
时 动态 数据 仓库 支持 前 端 应 用 ， 大 大 缩短 了 响应 时 间 。 

2) 支持 大 数据 技术 ,增加 对 非 结 构 化 数据 的 处 理 。 

3) 用 户 已 经 不 再 满足 于 传统 的 数据 展现 ， 要 求 数据 进一步 可 视 化 。 

4) 对 于 预测 分 析 、 假 设 模拟 和 数据 挖 气 技术 的 应 用 将 会 越 来 越 广泛 。 

5) 用 户 对 商业 智能 的 实时 性 需求 越 来 越 多 。 


8.1.4 商业 智能 的 传统 数据 架构 


商业 智能 的 传统 架构 类 似 于 传统 的 物流 过 程 ， 即 各 地 运 来 的 货物 首先 存放 在 暂 存 库 ， 主 
要 目的 是 对 各 类 货物 进行 清洗 、 筛 选 、 检 查 、 贴 标签 等 工作 ， 然 后 统一 发 往 货 仑 ， 最 后 在 各 
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个 超市 中 进行 集中 销售 ， 如 图 8-10 所 示 。 


超市 
改作 


Ee 


某 城市 货物 暂 存 库 











图 8-10 商业 智能 的 传统 架构 类 似 于 传统 的 物流 过 程 


其 中 ， 果 园 、 服 装 厂 、 农 场 、 渔 场 类 似 于 各 个 业务 系统 ， 货 物 暂 存 库 的 功能 与 ODS 系 
统 相似 ， 货 仓 相当 于 数据 仓库 系统 ， 而 超市 类 似 于 数据 集 市 系统 ， 如 图 8-11 所 示 。 


果园 
-4AC2] 


货物 暂 存 库 








| ons se] 








服装 三 

FY [a] 
农场 

曾 面 + [7 
渔场 


名 


图 8-11 商业 智能 的 传统 架构 与 传统 物流 过 程 的 映射 关系 





随 着 商业 智能 使 用 越 来 越 广泛 ， 使 用 者 已 经 不 再 局 限于 业务 分 析 人 员 或 者 高 层 领导 ， 可 
以 通过 外 部 网 络 延伸 到 企业 的 客户 、 合 作 伙伴 等 。 为 了 满足 这 些 用 户 的 需求 ， 商 业 智能 架构 
需要 满足 可 扩展 性 和 可 靠 性 ， 同 时 保证 快速 的 响应 能 

对 于 传统 的 商业 智能 体系 ,底层 是 软 硬 件 平 台 、 安 全 管理 和 元 数据 管理 等 。 商 业 智能 的 
工作 流 和 数据 流 分 别 是 数据 源 、 数 据 整 合 、 数 据 人 处理、 分 析 和 应 用 。 综 上 所 示 ， 我 们 可 以 得 
到 商业 智能 的 传统 数据 架构 的 分 布 情况 ， 如 图 8-12 所 示 。 
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数据 整合 数据 处 理 














外 部 数据 














图 8-12 商业 智能 的 传统 数据 架构 的 分 布 


商业 智能 的 处 理 过 程 是 从 各 个 业务 系统 或 者 其 他 数据 源 中 抽取 有 用 的 数据 ， 然 后 对 采集 
的 数据 进行 清洗 、 转 换 和 加 载 ， 以 保证 入 仓 之 前 的 数据 是 完整 的 、 一 致 的 ， 经 过 重 构 之 后 ， 
将 数据 存储 到 数据 仓库 或 者 数据 集 市 中 。 数 据 仓库 的 数据 反映 的 是 企业 的 整体 情况 ， 最 后 利 
用 数据 挖掘 工具 、OLAP 分 析 工 具 对 数据 进行 处 理 ， 完 成 数据 到 信息 和 知识 的 转变 。 

传统 商业 智能 数据 架构 中 的 数据 流转 如 图 8-13 所 示 。 


数据 源 查询 、 分 析 工 具 


数据 仓库 名 
党 清洗 、 转 换 、 加 载 | 日 服务 
YY SS > nr 
党 数据 集 市 数据 集 市 


图 8-13 ”传统 商业 智能 的 数据 流转 














并 





对 于 数据 仓库 的 建设 ， 是 以 业务 系统 和 大 量 的 业务 数据 积累 为 基础 ， 然 后 将 这 些 数据 进 
行 整理 和 归纳 ， 提 供给 决策 分 析 人 员 。 数 据 仓库 建设 是 一 个 工程 ， 主 要 包含 企业 内 部 信息 和 
外 部 信息 。 内 部 信息 包括 各 种 业务 处 理 数 据 和 各 类 文档 数据 ， 外 部 信息 包括 各 类 市 场 信息 、 
各 种 手工 收集 的 信息 等 。 

数据 仓库 的 关键 是 数据 的 存储 和 管理 。 针 对 各 类 业务 数据 ， 进 行 抽取 、 清 理 和 集成 ， 按 
照 主题 进行 组 织 。 可 以 按照 多 维 模型 进行 组 织 ， 分 析 。 

其 中 前 端 工 具 主要 包括 报表 工具 、 查询 工具 、 数 据 分 析 工 具 、 数 据 挖掘 工具 等 应 用 开发 
工具 ， 如 图 8-14 所 示 。 

传统 商业 智能 体系 和 未 来 实时 商业 智能 体系 的 区 别 如 图 8-15 所 示 。 
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数据 挖掘 
工具 


图 8-14 前端 工 具 
未 来 实时 商业 智能 体系 

















图 8-15 传统 商业 智能 体系 和 未 来 实时 商业 智能 体系 的 区 别 


传统 商业 智能 体系 主要 是 对 历史 数据 的 分 析 。 数 据 仓库 作为 前 端 应 用 主要 的 数据 源 。 
未 来 实时 商业 智能 体系 主要 是 对 实时 数据 的 分 析 和 监控 数据 。 它 可 以 快速 捕获 变化 的 数 


据 。 数 据 仓库 作为 前 端 应 用 的 部 分 数据 源 。 

















8.2 未 来 商业 智能 的 架构 


8.2.1 旅游 行业 分 析 型 客户 关系 管理 的 商业 智能 体系 
目前 ， 旅 游行 业 遇 到 了 很 多 问题 和 挑战 ， 如 图 8-16 所 示 。 


(1) 市 场 范 争 不 断 加 剧 
在 许多 地 方 ， 旅 游行 业已 逐渐 发 展 成 国民 经 济 的 战略 性 支柱 产业 ， 导 致 范 争 异常 激烈 。 


(2) 部 分 业务 收入 开始 下 降 
因为 受到 多 重 因素 的 影响 ， 旅 游行 业 中 的 部 分 子 行业 收入 开始 下 降 ， 传 统 的 粗放 型 营销 


策略 已 经 不 能 适应 旅游 行业 的 未 来 发 展 。 
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市 场 竞 争 不 断 加 剧 








Ee 部 分 业务 收入 开始 下 降 


问题 和 挑战 a 


Ee 缺乏 对 旅游 产品 的 创新 


图 8-16 旅游 行业 目前 遇 到 了 很 多 问题 和 挑战 

(3) 育 目 宣传 ， 缺 乏 精 准 化 营销 

很 多 旅游 公司 没有 真正 了 解 消费 者 的 需求 ， 广 告 宣传 缺乏 创意 ， 没 有 达到 真正 的 销售 拉动 
作用 ， 不 清楚 目标 群体 的 特征 、 喜 好 ， 不 能 及 时 地 将 信息 送 到 目标 人 群 中 ， 缺 乏 精准 化 营销 。 

(4) 缺乏 对 旅游 产品 的 创新 

在 旅游 行业 中 ， 普 遍 存 在 的 问题 是 缺乏 对 旅游 产品 的 创新 ， 无 法 吸引 消费 者 。 

新 的 问题 和 挑战 ， 对 旅游 机 构 提 出 了 以 下 更 高 的 要 求 。 

1) 在 市 场 竞 争 不 断 加 剧 的 情况 下 ， 旅 游 机 构 应 该 建立 一 体 化 的 客户 营销 体系 ， 为 客户 
提供 个 性 化 服务 ， 细 分 目标 客户 ， 增 强 客户 满意 度 ， 提 高 营销 的 精准 度 。 

2) 部 分 业务 收入 开始 下 降 的 情况 下 ， 旅 游 机 构 应 该 采取 精细 化 的 客户 发 展 策略 ， 满 足 
客户 个 性 化 的 需求 ， 提 高 客户 的 忠诚 度 ， 让 旅客 有 不 同 的 体验 和 感受 ， 从 而 乐于 重复 消费 ， 
以 增加 行业 的 收入 。 

3) 对 于 旅游 机 构 的 营销 宣传 ， 需 要 结合 消费 者 对 产品 的 印象 、 喜 好 和 市 场 的 实际 情况 。 
同时 包括 对 目标 群体 的 需求 和 竞争 对 手 情况 的 掌握 ， 0 

4) 旅游 产品 项 目 需 要 不 断 拓 新 ， 增 加 与 消费 者 之 间 的 互动 ， 提 高 产品 的 精细 化 程度 。 
另外 ， 可 以 不 断 进行 新 产品 设计 ， 提 供 个 性 化 产品 。 

面 对 问题 、 挑 战 和 更 高 的 要 求 ， 基 于 挖掘 技术 ， 建 立 分 析 型 客户 关系 管理 的 商业 智能 体 
系 ， 以 解决 精准 营销 和 产品 的 创新 间 题 ， 某 旅游 机 构 的 建设 流程 如 图 8-17 所 示 。 


Te 





盲目 宣传 ， 人 缺乏 精准 化 营销 A | 












































人 





实现 对 客户 的 精准 














在 一 期 系统 的 基础 上 建立 数据 标准 体 
系 ， 实 现 对 客户 信息 的 整合 ， 同 时 对 
数据 进行 挖掘 ， 建 立 分 析 型 的 客户 关 
系 管理 系统 




















商业 智能 系统 实现 了 客户 基础 信息 、 交 易 记录 等 信 
息 息 的 集成 ， 但 是 没有 实现 对 信息 的 挖 气 ， 很 难 体现 价值 








图 8-17 商业 智能 体系 解决 精准 营销 和 产品 的 创新 问题 


1) 一 期 商业 智能 系统 实现 了 客户 基础 信息 、 交 易 记录 等 信息 的 集成 ,但 是 没有 实现 对 
言 息 的 挖掘 ， 很 难 体现 价值 。 
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2) 在 一 期 系统 的 基础 上 建立 数据 标准 体系 ， 实 现 对 客户 信息 的 整合 ， 同 时 对 数据 进行 
挖掘 ， 建 立 分 析 型 的 客户 关系 管理 系统 。 

3) 最 后 ， 在 此 基础 上 ， 增 加 客户 体验 和 推送 成 功率 ， 由 被 动 营 销 改 为 主动 营销 ， 对 客 
户 信息 进行 评估 与 深入 挖掘 ， 主 动向 客户 推送 一 些 旅游 产品 ， 从 而 实现 对 客户 的 精准 营销 。 

分 析 型 客户 关系 管理 商业 智能 数据 架构 如 图 8-18 所 示 。 
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图 8-18 分 析 型 客户 关系 管理 商业 智能 数据 染 构 





其 中 分 析 型 客户 关系 管理 系统 的 数据 流转 如 图 8-19 所 示 。 








营销 信息 层 分 析 企 划 层 管理 实施 


有 江 





流失 预警 模型 


虹 。 





户 行为 细 分 模型 


交叉 销售 模型 


更 多 模型 


数据 挖掘 模型 


加 











图 8-19 分 析 型 客户 关系 管理 系统 的 数据 流转 
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8.2.2 电信 行业 实时 商业 智能 架构 体系 
电信 行业 实时 商业 智能 应 用 架构 如 图 8-20 所 示 。 
监控 ”数据 查询 多 维 分 析 
话费 财务 报表 


用 户 欺诈 监控 统一 客户 视图 查询 
服务 监控 | 产品 克 餐 销售 报表 








客户 分 析 
竞争 分 析 
高 额 话费 预警 

产品 与 套餐 分 析 
增值 业务 营销 分 析 


人 力 分 析 


财务 分 析 








图 8-20 ”电信 行业 实时 商业 智能 应 用 架构 




















。 监 控 
监控 包括 用 户 类 诈 监 控 、 服 务 监控 、 高 额 话费 预警 等 内 容 。 
。 数 据 查 询 


数据 查询 包括 话费 财务 报表 、 统 一 客户 视图 查询 、 产 品 套餐 销售 报表 等 内 容 。 
e 多 维 分 析 
多 维 分 析 包 括 客户 分 析 、 竞 争 分 析 、 产 品 与 套餐 分 析 、 增 值 业 务 营 销 分 析 、 人 力 分 析 、 








财务 分 析 等 。 
电信 行业 实时 商业 智能 数据 架构 如 图 8-21 所 示 。 


决策 实施 





应 用 





实时 整合 | 实时 数据 查询 、 监 控 





数据 集 市 
(| 

数据 集 市 

(于 | 
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这 种 实时 的 商业 智能 架构 的 目的 是 在 合适 的 时 机 ， 通 过 合适 的 渠道 ， 向 客户 推送 合适 的 
产品 和 服务 。 这 也 要 求 我 们 从 以 “产品 为 中 心 ”向 以 “客户 为 中 心 ”转变 。 

我 们 可 以 分 析 客 户 的 特征 ， 规 划 其 产品 ， 选 择 客户 训 爱 的 营销 渠道 ， 在 适当 的 时 候 对 客 
户 进行 推荐 。 

实时 的 商业 智能 的 具体 流程 如 图 8-22 所 示 。 


i : 取 需 求 I 定 营销 
捕捉 和 监测 | 办 


图 8-22 ”实时 的 商业 智能 的 具体 流程 






































通过 实时 获知 客户 的 变化 ， 捕 提 客 户 的 需求 和 购买 产品 的 概率 ， 最 后 形成 完整 的 营销 方 
案 。 例 如 ， 通 过 数据 仓库 中 的 客户 行为 信息 的 自动 检测 ， 我 们 主动 联系 客户 ， 获 取 真 实 的 客 
户 需 求 ， 最 后 制定 完整 的 营销 方案 ， 形 成 一 个 事件 式 营 销 流程 。 

电信 行业 传统 的 营销 方式 和 事件 式 营销 方式 的 区 别 如 图 8-23 所 示 。 














事件 式 营销 


识别 可 能 购买 


产品 的 客户 


针对 客户 销售 
一 种 产品 














图 8-23 ”传统 的 营销 方式 和 事件 式 营 销 方式 的 区 别 
1) 传统 的 营销 有 以 下 几 种 方式 : 销售 产品 、 识 别 可 能 购买 产品 的 客户 和 针对 客户 销售 
一 种 产品 。 
2) 事件 式 营 销 有 以 下 几 种 方式 : 分 析 客 户 行为 变化 、 识 别 符合 购买 条 件 的 客户 和 针对 
客户 销售 多 种 产品 。 








小 结 





业 智 能 的 建设 是 一 个 战略 性 的 工程 ， 它 直接 影响 到 企业 未 来 的 发 展 方向 ， 对 于 商业 
智能 的 架构 应 该 遵循 以 下 几 项 原则 ， 前 上 脆性、 实用 性 、 安 全 性 和 可 信 性 。 
商业 智能 系统 从 企业 的 日 常数 据 中 开发 基于 事实 的 信息 ， 辅 助 企业 做 出 更 好 的 商业 决 











策 ， 提 高 企业 运营 效率 和 决策 分 析 的 能 力 。 可 以 帮助 企业 完成 风险 分 析 、 坎 诈 监 测 、 
财务 分 析 等 。 

。 商业 智能 的 典型 应 用 包括 : 经 营 分 析 、 绩 效 管 理 、 战 略 决策 支持 、 产 品 管理 和 创新 、 
客户 关系 管理 和 风险 管理 等 。 

。 商业 智能 产品 应 该 建立 在 稳定 的 平台 上 ， 它 可 以 提供 数据 关联 分 析 的 功能 、 数 据 监控 
的 功能 、 数 据 展 示 功 能 和 数据 输出 功能 。 

。 传统 商业 智能 具有 以 下 几 个 特点 : 查询 、 报 表 、 多 维 分 析 和 统计 分 析 、 数 据 挖掘 等 。 
。 传统 型 的 商业 智能 主要 是 基于 历史 数据 做 出 决策 和 分 析 。 它 面向 企业 的 决策 者 和 分 析 
者 ， 主 要 以 查询 为 主 。 未 来 商业 智能 主要 是 基于 实时 的 数据 做 出 分 析 和 决策 ， 它 可 以 
面向 一 线 的 客户 经 理 和 决策 者 ， 通 过 实时 捕获 的 数据 ， 获 取 最 新 的 信息 和 知识 。 它 可 
以 提高 商业 智能 对 业务 的 即时 指导 作用 ， 同 时 快速 地 响应 事件 ， 提 升 企业 的 竞争 力 。 
。 商业 智能 的 传统 架构 类 似 于 传统 的 物流 过 程 ， 即 各 地 运 来 的 货物 首先 存放 在 暂 存 库 ， 
主要 目的 是 对 各 类 货物 进行 清洗 、 第 选 、 检 查 、 贴 标签 等 工作 ， 然 后 统一 发 往 贷 

最 后 在 各 个 超市 中 进行 集中 销售 。 
。 随 着 商业 智能 使 用 越 来 越 广泛 ， 使 用 者 已 经 不 再 局 限于 业务 分 析 人 员 或 者 高 层 领导 ， 
可 以 通过 外 部 网 络 延伸 到 企业 的 客户 、 合 作 伏 伴 等 。 为 了 满足 这 些 用 户 的 需求 ， 商 业 
智能 架构 需要 满足 可 扩展 性 和 可 靠 性 ， 同 时 保证 快速 的 响应 能 
。 电信 行业 实时 商业 智能 架构 如 下 所 示 : 

































































(1) 监控 
监控 包括 用 户 类 诈 监 控 、 服 务 监 控 、 高 额 话费 预警 等 内 容 。 
(2) 数据 查询 








数据 查询 包括 话费 财务 报表 、 统 一 客户 视图 查询 、 产 品 套餐 销售 报表 等 内 容 。 

(3) 多 维 分 析 

多 维 分 析 包 括 客户 分 析 、 竞 争 分 析 、 产 品 与 套餐 分 析 、 增 值 业 务 营 销 分 析 、 人 力 分 析 、 
财务 分 析 等 。 

。 这 种 实时 的 商业 智能 架构 的 目的 是 在 合适 的 时 机 ， 通 过 合适 的 渠道 ， 向 客户 推送 合适 

的 产品 和 服务 。 这 也 要 求 我 们 从 以 “产品 为 中 心 ”向 以 “客户 为 中 心 ”转变 。 

。 传统 的 营销 方式 和 事件 式 党 销 方式 的 区 别 .: 

1) 传统 的 营销 有 以 下 几 种 方式 : 销售 产品 、 识 别 可 能 购买 产品 的 客户 和 针对 客户 销售 
一 种 产品 。 

2) 事件 式 营 销 有 以 下 几 种 方式 : 分 析 客 户 行为 变化 、 识 别 符合 购买 条 件 的 客户 和 针对 
客户 销售 多 种 产品 。 
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第 9 章 商业 智能 一 数据 仓库 巢 构 和 案例 


本 章 目 标 

















通过 前 几 章 的 学 习 ， 我 们 了 解 了 商业 智能 的 定义 、 商 业 智能 的 功能 、 


商业 智能 的 发 展 趋势 、 





商业 智能 的 实施 方法 和 步骤 、 关 于 商业 智能 的 核心 技术 、 数 据 仓库 理论 、 数 据 仓库 的 特点 、 数 据 
集 市 理论 、ODS 理论 等 知识 。 同 时 也 掌握 了 商业 智能 架构 原则 和 相关 典型 应 用 ， 商 业 智 能 具有 的 
功能 ， 商 业 智能 未 来 的 发 展 趋势 和 方向 ， 商 业 智能 的 传统 架构 ， 未 来 商业 智能 的 架构 等 内 容 。 

















学 习 本 章 后 ， 读 者 将 擎 握 : 

。 数据 仓库 的 定义 

。 数据 仓库 产生 的 背景 和 原因 
。 数据 仓库 的 特征 
。 数据 仓库 和 商业 智能 之 间 的 关系 
。 数据 仓库 的 优势 
。 数据 仓库 面临 的 挑战 

。 数据 仓库 的 技术 特性 

。 数据 仓库 建设 方法 

。 数据 仓库 设计 原则 

。 数据 仓库 架构 规划 

。 数 据 仓库 数 据 模型 

。 数据 仓库 建设 路 线 图 

。 数据 仓库 系统 的 灾难 备份 规划 

。 商业 银行 数据 仓库 面临 概况 和 瓶颈 
。 商业 银行 数据 仓库 建设 及 改进 建议 
。 商业 银行 数据 仓库 建设 案例 分 析 
。 商业 银行 数据 仓库 建设 启示 

















。 电力 行业 数据 仓库 体系 架构 

。 电力 行业 数据 仓库 能 力 蓝 图 

。 数据 仓库 对 电力 业务 发 展 的 促进 作用 
。 数据 仓库 建设 策略 比较 

e。 电力 行业 数据 仓库 的 数据 架构 设计 


9.1 数据 仓库 概述 


9.1.1 数据 仓库 的 定义 

















数据 仓库 在 比尔 . 恩 门 所 著 的 《如 何 构建 数据 仓库 》 一 书 中 的 定义 :“ 数 据 仓 库 是 一 个 
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面向 主题 的 (Subject Oriented) 、 集 成 的 〈Integrated) 、 相 对 稳定 的 (Non - Volatile ) 、 反 映 
历史 变化 (Time Variant) 的 数据 集合 ， 主 要 用 于 文 持 决策 分 析 ”。 该 定义 被 广泛 接受 。 换 名 
话说 ， 数 据 仓 库 是 为 企业 的 决策 分 析 提 供 文 持 的 所 有 类 型 的 数据 的 集合 。 

1， 如何 理解 数据 仓库 

数据 仓库 是 一 个 过 程 ， 而 不 是 一 个 产品 。 数 据 仓 库 的 整个 过 程 包括 很 多 产品 和 实施 服 
务 。 例 如 ， 数 据 仓库 包含 一 些 平台 产品 、 数 据 处 理工 具 和 前 端 应 用 工具 。 对 于 平台 产品 来 
说 ， 包 括 数据 库 、 服 务 器 和 存储 设备 。 数 据 处 理工 具 主 要 是 ETL 工具 和 一 些 数据 管理 工具 。 
对 于 前 端 应 用 工具 来 说 ， 包 括 OLAP 工具 、 数 据 挖掘 工具 、 报 表 展 现 工具 和 门户 等 。 

2. 企业 级 数据 仓库 的 数据 架构 

企业 级 数据 仓库 的 数据 架构 如 图 9-1 所 示 。 


知识 发 现 业务 人 员 
数据 挖掘 ”查询 报表 展示 多 维 分 析 


库 外 数据 集 市 





























攻 
no 归 芝 叶 


图 9-1 企业 级 数据 仓库 的 数据 框架 


3. 数据 仓库 系统 建设 应 该 考虑 的 问题 

1) 首先 选择 数据 仓库 系统 的 成 功 案例 作为 重要 参考 。 

2) 学 习 行 业内 的 先进 经 验 。 

3) 具备 专业 的 数据 仓库 实施 队伍 和 业务 领域 的 专家 。 

4) 考虑 数据 仓库 是 否 满足 海量 数据 的 复杂 、 并 发 查询 。 

5) 数据 仓库 应 该 满足 可 扩展 的 能 

6) 数据 仓库 应 该 考虑 高 可 靠 性 ， 并 且 满 足 高 质量 的 要 求 。 

4. 商业 银行 数据 仓库 的 应 用 及 需要 考虑 的 主要 因素 

商业 银行 数据 仓库 有 很 多 具体 应 用 ， 如 财务 管理 、 绩 效 管理 、 风 险 管理 、 资 产 负债 管理 
和 客户 管理 ， 如 图 9-2 所 示 。 

数据 仓库 规划 时 需要 考虑 的 主要 因素 包括 业务 需求 、 技 术 、 投 资 成 本 、 系 统 的 适用 对 
象 等 。 
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到 险 管理 is 客户 管理 














图 9-2 商业 银行 数据 仓库 具体 应 用 


。 业 务 需求 

业务 需求 是 指 随 着 市 场 的 开发 ， 客 户 的 需求 有 哪些 转变 ， 业 务 的 发 展 重点 是 什么 。 要 理 
解 建设 数据 仓库 不 是 目的 ， 而 是 一 种 手段 。 

。 技术 

技术 方面 要 考虑 业务 系统 的 历史 数据 量 和 用 户 数 是 多 少 。 

。 投资 成 本 

投资 成 本 包括 购买 数据 仓库 产品 的 成 本 、 使 用 成 本 、 维 护 成 本 和 管理 运行 成 本 。 

。 系 统 的 适用 对 象 

系统 的 适用 对 象 包 括 管理 决策 层 或 者 业务 部 门 。 

5. 数据 仓库 的 建设 目标 

数据 仓库 建设 目标 是 将 数据 转化 成 信息 、 知 识 ， 最 后 辅助 企业 高 层 进行 决策 分 析 。 其 中 
数据 是 原始 业务 数据 的 记录 。 信 息 表示 整合 的 数据 提供 特定 的 信息 。 信 息 间 的 逻辑 关系 成 为 
知识 。 决 策 是 基于 对 知识 的 掌握 采取 相应 的 行动 。 

6. 数据 仓库 项 目 失 败 的 标志 

数据 仓库 项 目 失 败 的 标志 有 以 下 几 种 ， 如 图 9-3 所 示 。 

1) 数据 仓库 项 目 周期 延长 ， 费 用 严重 超支。 

2) 日 常 工作 不 依赖 于 数据 仓库 。 

3) 业务 人 员 对 数据 仓库 中 的 数据 质量 不 信任 。 





日 常 工 作 不 依赖 于 
数据 仓库 | 


上 业务 人 员 对 数据 仓 详 
”中 的 数据 质量 不 信 








图 9-3 数据 仓库 项 目 失败 的 标志 
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7. 数据 仓库 普遍 存在 的 问题 
数据 仓库 普遍 存在 的 问题 包括 数据 仓库 平台 问题 、 数 据 仓 库 质量 问题 和 数据 仓库 应 用 问 
题 ， 如 图 9-4 所 示 。 






| 对 于 数据 仓库 平台 来 说 ， 它 的 高 可 用 性 、 扩 展 性 和 稳定 性 
E25 下 J 间 是 相当 重要 的 


2 2 da 数据 仓库 的 质量 问题 一 直 是 难点 


二 和 RS 下 对 于 数据 仓库 的 应 用 来 说 , 它 的 决策 分 析 能 力 是 相当 重要 的 





图 9-4 数据 仓库 普遍 存在 的 问题 

8. 数据 仓库 项 目 需要 考虑 的 因素 

数据 仓库 项 目 需要 考虑 很 多 因素 ， 例 如 : 系统 应 该 实现 的 目标 、 项 目 实施 的 条 件 、 系 统 
现状 和 技术 平台 应 该 拥有 的 能 力 。 

对 于 应 用 规划 的 目标 来 说 ， 数 据 仓库 应 该 满足 企业 管理 层 的 决策 分 析 需 求 ， 提 高 客户 的 
满意 度 。 项 目 实施 的 条 件 包 括 : 数据 仓库 项 目 实施 的 成 功 经 验 ， 具 有 数据 仓库 实施 的 一 般 方 
法 论 ， 同 时 具备 团队 建设 和 管理 的 能 

对 于 系统 现状 的 调研 来 说 ， 应 该 调研 数据 源 的 质量 问题 、 业 务 系统 的 运行 状况 和 各 个 部 
门 对 于 数据 仓库 系统 的 理解 程度 。 对 于 数据 
仓库 技术 平台 的 要 求 包括 : 具有 海量 数据 处 
理 能 力 ， 数 据 分 区 的 能 力 ， 同 时 具备 一 定 的 
技术 先进 性 。 

9. 对 数据 仓库 有 效 的 使 用 方式 


对 于 数据 仓库 的 建设 过 程 来 说 ， 首 先 应 I 














该 实现 对 业务 的 分 析 ， 帮 助 高 层 领导 加 深 对 
业务 运营 状况 的 了 解 ， 提 高 企业 的 市 场 竞 争 
能 力 ， 然 后 将 分 析 结 果 反 馈 到 业务 系统 中 ， 二 医 . 司 
实现 分 析 应 用 和 业务 应 用 的 交互 闭环 过 程 ， 
加 强 对 业务 运营 的 指导 ， 为 企业 带 来 可 持续 图 9-5 ”对 数据 仓库 有 效 的 使 用 方式 
的 价值 ， 如 图 9-5 所 示 。 
9.1.2 数据 仓库 产生 的 背景 和 原因 

1. 数据 仓库 产生 的 背景 

随 着 信息 量 的 不 断 增 大 ， 企 业 需要 把 这 些 数据 当 作 一 种 资产 ， 通 过 多 个 角度 去 分 析 这 些 
海量 数据 ， 并 从 中 获取 有 用 的 信息 和 知识 。 因 为 事务 处 理 操 作 型 的 数据 库 很 难 满 足 这 种 需 
求 ， 所 以 数据 仓库 技术 应 运 而 生 。 
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数据 仓库 是 面向 主题 的 、 集 成 的 、 稳 定 的 ， 并 且 反 映 历史 变化 的 ， 数 据 仓库 在 保证 数据 
存储 的 基础 上 ， 挖 掘 信息 ， 使 数据 变 得 更 有 价值 。 

2. 数据 仓库 产生 的 原因 

数据 仓库 的 出 现 和 发 展 是 计算 机 应 用 到 一 定 阶段 的 产物 ， 很 多 企业 经 过 多 年 的 数据 积 
累 , 保存 了 大 量 的 原始 数据 和 各 种 业务 数据 ， 这 些 数 据 真 实地 反映 了 企业 的 经 济 情况 。 但 是 
因为 缺乏 对 数据 的 有 效 管理 ， 所 以 无 法 体现 这 些 数据 对 企业 的 价值 。 

在 20 世纪 70 年 代 ， 出 现 了 关系 型 的 数据 库 技 术 ， 为 这 一 类 问题 提供 了 解决 方案 。 

在 20 世纪 80 年 代 中 期 ， 很 多 用 户 已 经 不 能 满足 数据 库 技术 处 理事 务 数 据 的 需求 ， 而 是 
更 希望 满足 决策 分 析 的 需要 。 

随 着 决策 分 析 的 需求 慢 慢 深入 人 心 ， 在 20 世纪 80 年 代 末 和 20 世纪 90 年 代 初 ， 终 于 出 
现 了 数据 仓库 的 概念 ， 它 为 决策 支持 打下 了 基础 。 数 据 仓库 经 历 了 一 段 时 间 的 发 展 ， 加 之 经 
过 多 年 的 市 场 和 运营 积累 ， 企 业 也 已 经 坐 拥 了 大 量 的 业务 数据 ， 这 些 数据 为 数据 仓库 技术 的 
后 续 发 展 打 下 了 重要 的 基础 。 

20 世纪 90 年 代 初 期 ， 比 尔 : 恩 门 在 《如 何 构 建 数据 仓库 》 中 提出 了 “数据 仓库 ”的 
概念 ， 几 年 后 ， 数 据 仓 库 的 研究 和 应 用 得 到 了 广泛 关注 。 


9.1.3 数据 仓库 的 特征 


数据 仓库 有 以 下 几 个 特征 : 面向 主题 的 、 集 成 的 、 相 对 稳定 的 和 反映 历史 变化 ， 如 
图 9-6 所 示 。 




















。 集成 的 























。 反映 历史 变化 








。 相对 稳定 的 




















图 9-6 数据 仓库 的 特征 


1. 数据 仓库 是 面向 主题 的 

数据 仓库 是 面向 主题 进行 组 织 的 。 什 么 是 主题 ?主题 是 对 业务 数据 的 一 种 抽象 ， 是 从 较 
高 层次 上 对 信息 系统 中 的 数据 进行 归纳 和 整理 。 面 向 主题 的 数据 组 织 方式 ， 就 是 在 较 高 层次 
上 对 分 析 对 象 的 描述 ， 所 谓 面向 主题 的 特性 是 根据 业务 的 不 同 而 进行 的 内 容 划 分 。 

2. 数据 仓库 是 集成 的 

数据 仓库 中 的 数据 是 按照 主题 存储 的 ， 与 业务 系统 中 的 数据 可 能 会 存在 较 大 差别 ， 数 据 
仓库 中 的 数据 来 源 于 不 同 的 业务 系统 ， 因 此 ， 在 进入 到 数据 仓库 之 前 ， 需 要 经 历 一 个 整合 、 
清洗 的 过 程 ， 保 证 数据 的 一 致 性 ， 同 时 进行 数据 的 集成 、 计 算 和 汇总 。 

集成 的 特性 表现 在 : 数据 是 独立 分 散 的 ， 如 核心 业务 系统 、 电 子 渠 道 系统 、 信 贷 系 统 、 
票据 系统 ， 每 个 系统 只 保留 单独 的 数据 ， 如 果 进 行 公共 的 汇总 ， 那 么 必须 纳入 到 一 个 统一 的 
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平台 进行 分 析 、 挖 据 。 这 是 数据 仓库 产生 的 根本 动因 ， 数 据 仓库 也 可 以 做 一 个 公共 标准 ， 例 
如 有 的 系统 用 0 和 1， 分 别 代表 男 和 女 ， 有 的 用 m 和 f 代 表 ， 需要 有 一 个 统一 的 标准 。 

3. 数据 仓库 是 相对 稳定 的 

数据 仓库 通常 保存 数据 不 同 历史 时 期 的 各 种 状态 ， 并 不 对 数据 进行 任何 更 新 操作 ， 一 般 
来 说 ， 数 据 仓库 的 数据 主要 是 做 查询 ， 以 供 企业 决策 分 析 之 用 。 数 据 仓 库 中 的 数据 反映 的 是 
很 长 时 间 内 的 历史 数据 ， 可 以 看 作 不 同时 点 的 数据 库 快照 的 集合 。 并 且 在 这 些 快 照 的 基础 上 
进行 统计 分 析 。 当 操作 型 数据 库 经 过 联机 处 理 后 ， 将 数据 集成 并 且 输 入 到 数据 仓库 中 。 而 数 
据 仓库 将 这 些 历史 数据 保存 起 来 ， 如 果 超 出 存储 期 限 ， 这 些 数 据 可 能 会 进行 归档 处 理 ， 或 者 
进行 删除 操作 。 

因为 数据 仓库 只 进行 数据 查询 的 操作 ， 并 且 查 询 量 相对 很 大 ， 对 数据 查询 的 效率 提出 了 
更 好 的 要 求 。 例 如 ， 可 以 利用 索引 、 分 区 等 技术 对 数据 仓库 进行 优化 。 数 据 仓库 的 数据 一 般 
不 进行 删除 ,但 是 超过 10 年 的 数据 都 放 和 到 归档 库 中 。 有 些 银 行 单独 建设 ODS， 不 仅 给 数 
据 仓库 供 数 ， 而 且 也 为 其 他 应 用 供 数 。 有 些 银 行 是 将 ODS 放 在 数据 仓库 中 建设 。 

数据 可 以 分 成 两 类 ， 即 交易 类 的 和 状态 类 的 。 交 易 类 的 ， 每 天 都 在 增加 ， 如 还 球 记 录 。 
另 一 部 分 ， 是 状态 类 的 ， 如 合同 余额 、 借 据 余额 。 可 以 基于 拉链 或 者 快照 的 方式 放 人 到 数据 
仓库 中 。 数 据 仓库 尽量 不 做 频繁 修改 。 

4. 数据 仓库 是 反映 历史 变化 的 

数据 仓库 的 历史 特性 是 指数 据 保留 时 间 惟 字段 ， 记 录 每 个 数据 在 不 同时 间 点 内 的 各 种 状 
态 。 数 据 仓 库 反 映 历史 变化 的 特性 表现 在 以 下 几 个 方面 : 

1) 数据 仓库 不 断 地 捕捉 业务 系统 中 已 经 变化 的 数据 ， 然 后 将 这 些 数据 追加 到 数据 仓库 
中 ， 将 不 断 生 成 的 业务 快照 经 过 统一 集成 后 进入 到 数据 仓库 中 ， 对 于 捕捉 到 的 新 的 变化 数据 
只 进行 新 增 操作 ， 而 不 进行 更 新 操作 。 

2) 一 般 来 说 ,数据 仓库 的 数据 会 有 存储 期 限 ， 一 旦 超出 了 期 限 ， 过 期 数据 就 会 被 归 
档 ， 或 者 直接 删除 。 


9.1.4 ”数据 仓库 和 商业 智能 之 间 的 关系 


从 图 9-7 中 可 以 看 出 ,数据 仓库 是 实现 商业 智能 的 基础 平台 ,没有 数据 仓库 的 搭建 ， 
真正 的 商业 智能 是 无 法 实现 的 。 














决策 支持 
ht 数据 挖掘 与 探索 


| 数据 源 


图 9-7 数据 仓库 和 商业 智能 之 间 的 关系 
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9.1.5 数据 仓库 的 优势 及 面临 的 挑战 


1. 数据 仓库 的 优势 

数据 仓库 系统 相 比 其 他 系统 有 哪些 优势 呢 ? 有 以 下 几 种 ; 

1) 数据 仓库 系统 可 以 获取 生产 系统 综合 的 信息 ， 作 为 科学 决策 分 析 的 重要 依据 。 

2) 数据 仓库 可 以 从 宏观 的 角度 理解 信息 ， 也 可 以 从 微观 的 角度 探查 信息 。 

3) 通过 数据 仓库 系统 ， 可 以 建立 企业 内 部 各 个 部 门 之 间 的 联系 。 

2. 数据 仓库 面临 的 挑战 

全 球 经 济 的 起 伏 ， 行 业 竞争 的 日 益 激 烈 ， 数 据 信息 的 迅速 增长 ， 都 要 求 今天 的 企业 具备 
访问 、 整 合 各 种 数据 的 能 力 ， 并 通过 数据 分 析 帮 助 企业 管理 层 做 出 更 快 、 更 好 的 商业 决策 。 

一 方面 很 多 企业 拥有 多 个 系统 ， 这 可 能 导致 各 个 系统 之 间 数 据 互 相 冲 突 ， 从 而 使 管理 人 
员 无 法 及 时 、 有 效 地 获得 准确 的 信息 。 此 外 ， 企 业 大 多 数 的 分 析 解 决 方案 都 是 与 数据 仓库 分 
离 的 ， 增 加 了 系统 的 维护 成 本 和 运营 负载 。 另 一 方面 ， 信 息 的 快速 增长 使 数据 仓库 规模 扩展 
到 一 个 新 的 层次 ， 同 时 还 产生 了 更 加 复杂 的 数据 关系 ， 对 海量 数据 的 查询 、 控 掘 与 分 析 变 得 
更 加 复杂 ， 从 而 导致 系统 性 能 降低 ， 这 对 决策 分 析 的 及 时 性 和 灵活 性 产生 重大 影响 。 

传统 数据 仓库 所 带 来 的 挑战 ， 使 企业 管理 层 无 法 获得 及 时 、 准 确 、 有 效 的 业务 信息 ， 这 
会 对 企业 的 运营 和 耽 争 力 囊 来 影响 ,原因 如 下 所 示 : 

1) 缺乏 有 效 的 目标 市 场 定位 ， 难 以 推出 有 针对 性 的 产品 。 

2) 不 能 够 根据 个 性 化 的 服务 需求 ， 制 定 出 对 应 的 营销 策略 。 

3) 不 能 及 时 了 解 客户 的 真实 需求 和 特征 ， 无 法 提高 客户 的 忠诚 度 。 

因此 ， 企 业 需 要 一 种 全 面 、 多 功能 的 数据 仓库 平台 ， 它 不 仅 提供 唯一 事实 的 版 本 ， 更 需 
要 实时 洞察 的 功能 。 


9.1.6 数据 仓库 的 技术 特性 


数据 仓库 的 技术 特性 主要 包括 海量 数据 处 理 能 力 、 高 可 用 性 、 线 性 的 扩展 能 力 和 数据 压 
缩 能 力 ， 如 图 9-8 所 示 。 





























。 海 量 数据 处 理 。 高 可 用 性 























。 线性 的 扩展 能 








图 9-8 ”数据 仓库 的 技术 特性 








(1) 海量 数据 处 理 能 
数据 仓库 汇集 了 系统 的 全 部 数据 ， 数 据 量 不 断 增 长 ， 这 就 需要 数据 仓库 平台 能 够 处 理 高 
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并 发 和 大 数据 的 能 

(2) 高 可 用 性 

数据 仓库 平台 需要 提供 高 可 用 方案 ， 满 足 系统 的 高 可 用 性 需求 。 

(3) 线性 的 扩展 能 

随 着 用 户 需 求 的 多 样 化 ， 数 据 仓库 平台 不 仅 能 够 满足 现 有 的 处 理 需 求 ， 而 且 可 以 提供 良 
好 的 扩展 能 力 ， 以 满足 不 断 增 长 的 数据 量 和 复杂 的 查询 需求 。 

(4) 数据 压缩 能 

数据 仓库 平台 应 该 提供 良好 的 数据 压缩 能 力 ， 降 低 成 本 ， 满 足 系统 恢复 的 时 间 要 求 。 

















9.2 数据 仓库 设计 


9.2.1 数据 仓库 建设 方法 

1. 数据 仓库 建设 的 方法 论 

“制定 数据 标准 ， 建 立 数据 管控 机 制 ， 以 数据 、 应 用 驱动 为 主 ” 是 数据 仓库 基本 的 建设 
方法 论 。 如 图 9-9 所 示 ， 对 于 数据 仓库 的 建设 应 该 首先 建立 分 析 类 数据 标准 和 基础 类 数据 
标准 ， 同 时 成 立 数据 管控 机 制 ， 最 后 以 数据 、 应 用 驱动 为 主 ， 建 立 数据 仓库 系统 。 其 中 数据 
仓库 可 以 分 成 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 。 基 础 数据 层 的 数据 是 以 主题 域 的 方式 
进行 划分 ， 汇 总 数据 层 在 基础 数据 层 的 基础 上 按照 时 间或 者 机 构 等 维度 进行 汇总 。 库 内 集 市 
层 一 般 是 在 汇总 数据 层 或 者 基础 数据 层 的 基础 上 建立 起 来 的 。 应 用 可 以 建立 在 库 内 集 市 层 或 
者 库 外 集 市 层 中 。 


wm 


高 层 领导 ”管理 人 员 业务 人 员 ”数据 分 析 用 户 

































































图 9-9 数据 仓库 建设 的 方法 论 
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(1) 制定 数据 标准 

制定 数据 标准 时 ， 可 参考 金融 数据 模型 ， 同 步 设 计 标 准 参 考 模 型 ， 直 接 构成 数据 仓库 逻 
辑 数据 模型 的 “骨架 ”和 核心 内 容 。 同时 推进 数据 标准 化 的 工作 ， 保 证 基础 信息 项 的 名 称 、 
定义 、 口 径 一 致 。 在 此 基础 上 ， 逐 步 建立 数据 仓库 ， 将 各 个 系统 的 数据 分 类 汇集 到 数据 仓库 
中 ， 实 现 数据 管理 的 规范 化 和 标准 化 。 例 如 ， 将 客户 、 产 品 、 机 构 等 基础 信息 建立 统一 的 数 
据 标 准 ， 以 确保 名 称 、 定 义 、 口 径 和 来 源 的 一 致 性 ， 然 后 在 数据 仓库 的 建设 过 程 中 遵循 这 些 
统一 的 标准 。 

(2) 建立 数据 管控 机 制 

以 元 数据 管理 为 基础 ， 以 管控 流程 为 手段 ， 使 数据 仓库 成 为 可 信 、 可 控 的 数据 源 。 

(3) 以 数据 、 应 用 驱动 为 主 

提升 经 营 管理 、 决 策 分 析 和 监管 报 送水 平 。 

2. 数据 仓库 规划 的 原则 

数据 仓库 满足 高 效 、 灵 活 的 多 层次 的 数据 应 用 需求 ， 以 更 高 的 效率 和 质量 来 支持 复杂 的 
分 析 应 用 。 数 据 仓库 能 够 整合 各 类 数据 源 ， 提 高 数据 架构 的 灵活 性 、 数 据 处 理 高 效 性 和 数据 
加 工 的 自动 化 水 平 ， 使 系统 设计 更 具 前 上 脆性 和 易 扩 展 性 ， 保 证 系统 安全 稳定 性 的 提高 。 明 确 
各 个 部 门 管理 职责 ， 指 定 信息 管理 岗位 职责 ， 完 善 数 据 管理 技术 岗位 ， 制 定 管理 岗位 绩效 考 
核 等 指标 。 

3， 数据 仓库 的 实现 方式 

一 般 来 说 ， 数 据 仓库 的 实现 方式 可 以 分 成 两 类 : 数据 驱动 的 实现 方式 和 业务 驱动 的 实现 
方式 ， 如 图 9-10 所 示 。 














业务 驱动 的 


实现 方式 





图 9-10 数据 仓库 的 实现 方式 





(1) 数据 驱动 的 实现 方式 

当 业 务 需 求 不 明确 的 时 候 ， 按 照 这 种 方式 ， 首 先进 行 全 企业 的 数据 建 模 ， 并 且 按 照 EA/R 
模型 建立 数据 仓库 ， 然 后 根据 业务 部 门 的 需求 建立 相应 的 数据 集 市 ， 数 据 仓库 作为 数据 集 市 
的 唯一 来 源 。 从 整体 的 角度 进行 总 体 规划 ,例如 6 ~8 个 月 搭建 基础 数据 平台 ,形成 初步 成 
果 ，, 采用 循环 式 的 开发 方式 ， 向 业务 部 门 提供 切实 的 成 果 。 可 以 边 开 发 、 边 投产 、 边 推广 、 
边 收益 。 

(2) 业务 驱动 的 实现 方式 

当 业 务 需 求 非常 明确 的 时 候 ， 按 照 业务 需求 迭代 地 建设 数据 仓库 ， 在 建设 数据 仓库 的 过 
程 中 ， 有 什么 样 的 业务 需求 就 抓 取 什 么 数据 。 

两 种 方式 的 不 同 点 如 图 9-11 所 示 。 

数据 驱动 的 实现 方式 需要 将 数据 仓库 的 模型 在 前 期 做 扎实 ， 使 得 大 部 分 的 人 力 集 中 在 数 
据 仓库 的 基础 上 开发 应 用 ， 数 据 仓库 的 模型 只 需要 微调 就 可 以 满足 应 用 。 特 点 是 前 期 建立 数 
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数据 驱动 的 实现 方式 需要 业务 驱动 的 实现 方式 是 在 业 





















































将 数据 仓库 的 模型 在 前 务 需求 很 明确 的 情况 下 ， 按 
做 扎实 ， 使 得 大 部 分 的 人 照 业 务 需求 迭代 地 建立 数据 
力 集中 在 数据 仓库 的 基础 仓库 模型 ， 即 有 什么 样 的 业 
上 开发 应 用 ， 仓库 的 务 需求 就 为 数据 仓库 抓 取 什 
模型 只 需要 微调 就 可 以 满 么 样 的 数据 









足 应 用 


图 9-11 两 种 方式 的 不 同 点 











据 仓 库 模 型 需要 的 时 间 周期 长 ， 见 效 慢 ， 但 是 一 旦 数据 仓库 模型 建立 扎实 后 ， 后 期 的 基于 数 
据 仓库 的 应 用 开发 时 间 就 会 大 大 缩短 ， 数 据 仓库 模型 只 需 进行 微调 就 可 以 满足 应 用 需求 。 

业务 驱动 的 实现 方式 是 在 业务 需求 很 明确 的 情况 下 ， 按 照 业 务 需求 迭代 地 建立 数据 仓库 
模型 ， 即 有 什么 样 的 业务 需求 就 为 数据 仓库 抓 取 什么 样 的 数据 。 特 点 是 前 期 建立 数据 仓库 需 
要 的 时 间 周 期 较 短 ， 对 项 目 来 说 ， 具有“ 短 、 平 、 快 ”的 特点 。 但 是 对 于 后 期 如 果 需 要 增 
加 新 的 应 用 ， 那 么 数据 仓库 模型 需要 有 和 较 大 的 调整 。 简 单 来 说 ， 业 务 驱 动 就 是 有 什么 业务 需 
求 就 抓 取 什么 数据 ， 而 对 于 数据 驱动 来 说 ， 是 当 很 多 业务 需求 讲 不 清楚 的 时 候 ， 先 把 所 有 有 
用 的 数据 全 部 都 放 进 数据 仓库 中 。 

总 结 来 说 ， 数 据 仓 库 的 整体 建设 思路 主要 是 : 

首先 是 整体 规划 和 分 步 实施 ， 也 就 是 先 设 立 分 阶段 的 目标 ， 再 逐步 实施 。 

然后 是 完全 将 业务 需求 作为 数据 仓库 系统 建设 的 驱动 ， 最 终 让 数据 仓库 的 分 析 系 统 和 业 
务 系统 能 够 互相 交互 和 影响 ， 形 成 一 个 闭环 的 结构 。 

最 后 还 可 以 采用 齐头并进 的 方式 建设 数据 仓库 。 例 如 ， 以 数据 为 驱动 的 系统 分 析 和 以 业 
务 需求 为 驱动 的 系统 分 析 同 时 进行 。 


9.2.2 数据 仓库 设计 原则 


数据 仓库 架构 设计 遵循 以 下 原则 : 可 重用 性 、 高 性 能 、 可 扩展 性 、 可 管理 性 和 高 可 用 
性 ， 如 图 9-12 所 示 。 















































可 扩展 性 





高 可 用 1 





可 管理 性 








图 9-12 ”数据 仓库 架构 设计 遵循 的 原则 








(1) 可 重用 性 
数据 仓库 的 可 重用 性 是 指数 据 仓 库 系 统 的 组 件 可 以 被 多 次 利用 。 例 如 ， 使 用 ETL 工具 
或 者 数据 服务 组 件 ， 提 高 数据 和 组 件 的 可 重用 性 ， 从 而 减少 重复 的 开发 。 
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(2) 高 性 能 

数据 仓库 应 该 满足 高 性 能 的 需求 。 对 数据 仓库 来 说 ， 可 以 采用 诸如 负载 均衡 、 多 机 并 行 
的 技术 提高 数据 仓库 系统 的 响应 处 理 能 力 ， 这 样 可 以 多 方面 、 多 层次 地 提升 数据 仓库 的 
性 能 。 

(3) 可 扩展 性 

数据 仓库 系统 应 该 尽量 支持 以 第 三 范式 为 主 的 逻辑 数据 模型 的 设计 方法 。 同 时 需要 考虑 
架构 灵活 的 原则 ， 将 业务 需求 封装 到 数据 仓库 模型 中 ， 减 少数 据 不 必要 的 重复 。 保 证 在 业务 
需求 发 生变 化 的 时 候 ， 改 动量 最 小 化 。 这 样 ， 可 以 满足 未 来 数据 仓库 系统 的 可 扩展 性 。 

(4) 可 管理 性 

数据 仓库 的 可 管理 性 是 指 当局 部 发 生变 化 的 时 候 ， 应 该 从 全 局 的 角度 估计 出 这 个 变更 可 
能 产生 的 影响 。 

(5) 高 可 用 性 

数据 仓库 的 高 可 用 性 是 指 在 规定 的 服务 时 间 范 围 外 ， 数 据 仓库 系统 可 以 安排 计划 内 的 停 
机 。 但 是 如 有 果 在 服务 时 间 范 围 内 ， 出 现 因 为 硬件 或 者 其 他 原因 导致 的 系统 服务 或 者 数据 不 可 
用 时 ， 那 么 应 该 保证 数据 仓库 系统 尽快 恢复 ， 尽 量 避 免 因 停机 带 来 的 损失 。 

对 于 简单 加 工 、 以 查询 为 主 的 数据 服务 ， 不 需要 使 用 数据 仓库 技术 。 数 据 仓 库 的 应 用 需 
要 建立 在 海量 历史 数据 和 复杂 多 维 的 计算 上 。 


9.2.3 数据 仓库 架构 规划 


1. 数据 仓库 的 架构 和 定位 
数据 仓库 可 以 作为 数据 架构 规划 中 的 重要 内 容 之 一 。 一 般 来 说 ， 在 系统 中 的 定位 如 
图 9-13 所 示 。 














源 数据 内 容 管 理 数据 交换 数据 准备 数据 加 工 数据 应 用 


查询 类 产品 
应 用 








实时 方式 / | 2 
批量 方式 








a 
数据 归档 


数据 管控 











图 9-13 数据 仓库 的 架构 和 定位 





242 


数据 仓库 包括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 ， 如 图 9-14 所 示 。 














图 9-14 数据 仓库 包括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 





数据 仓库 有 以 下 几 个 特征 : 





1) 数据 仓库 整合 系统 的 全 局 信息 ， 包 括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 。 

2) 数据 仓库 中 的 数据 通常 包含 历史 信息 ， 记 录 了 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 
信息 ， 通 过 这 些 信息 ， 可 以 对 企业 的 发 展 历程 和 未 来 趋势 做 出 分 析 和 预测 。 

3) 数据 仓库 的 数据 来 源 可 以 是 结构 化 的 基础 数据 、 非 结构 化 数据 结构 化 的 信息 ， 也 可 


以 是 产品 数据 或 者 主 数据 。 





4) 数据 仓库 中 的 库 内 集 市 层 是 根据 应 用 需求 形成 的 数据 集合 ， 它 文 撑 了 各 种 专业 化 的 应 用 。 
下 面 分 别 对 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 进行 描述 : 


(1) 基础 数据 层 


对 于 数据 仓库 中 的 基础 数据 层 来 说 ， 它 存储 了 数据 仓库 最 细节 层次 的 数据 。 它 的 数据 源 


来 自 于 数据 准备 区 中 的 数据 ， 是 最 贴近 数据 源 的 一 层 。 


基础 数据 层 的 特性 : 


1) 基础 数据 层 一 般 是 按照 数据 仓库 的 第 三 范式 进行 数据 组 织 的 。 


2) 基础 数据 层 作为 汇总 数据 层 的 数据 源 。 
3) 基础 数据 层 一 般 不 做 删除 操作 。 





数据 仓库 基础 数据 层 同 数据 准备 区 中 的 基础 层 相 似 ， 但 是 两 者 在 组 织 形 式 、 用 途 、 内 


容 、 访 问 频率 等 方面 存在 差异 ， 见 表 9-1。 


表 9-1 数据 仓库 基础 数据 层 与 数据 准备 区 中 的 基础 层 的 差异 























差异 点 数据 仓库 基础 数据 层 数据 准备 区 中 的 基础 层 
按 第 三 范式 存储 ， 强 调 完整 性 、 一 致 性 ，| ”存储 贴 源 ， 按 第 一 范式 或 第 二 范式 存储 ， 时 
细 形 后 ? ? ， ， 
组 织 形式 个 同 。 | 时 效 性 相对 较 低 效 性 高 
途 不 同 支持 仓库 汇总 加 工 主要 支持 基础 产品 加 工 ， 并 对 数据 仓库 供 数 
































数据 内 容 不 同 0 还 包括 主 数据 等 


包括 所 有 采集 数据 











j 问 频率 不 同 数据 仓库 数据 访问 频率 较 低 








采取 准 实时 批量 方式 加 载 及 供 数 
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(2) 汇总 数据 层 


对 于 数据 仓库 汇总 数据 层 来 说 ， 





应 用 提供 数据 服务 。 
汇总 数据 层 的 特性 : 


1) 随 着 应 用 需求 的 增加 ， 








它 是 对 基础 数据 层 的 数据 进行 轻 度 汇总 ， 同 时 为 分 析 型 


汇总 数据 层 的 建设 需要 不 断 扩展 。 





2) 汇总 数据 层 是 对 明细 数据 的 必要 整合 ， 目 的 是 对 一 些 共 性 需求 进行 加 工整 合 ， 提 高 


数据 的 利用 率 。 
3) 汇总 数据 层 的 来 源 应 
需求 。 








应 该 是 数据 仓库 中 的 基础 层 ， 汇 总 的 问题 可 以 直接 反映 一 些 业务 








通过 创建 中 间 汇 总 表 ， 预 关联 和 汇总 常用 的 数据 ， 使 其 多 个 数据 集 市 可 以 共享 该 数据 ， 


以 提高 数据 仓库 的 性 能 ， 同 时 也 降低 了 ETL 工作 的 复杂 性 。 


(3) 库 内 集 市 层 





数据 仓库 规划 库 内 集 市 ， 首 移 数据 在 基础 层 整合 后 ， 做 一 些 汇总 设计 。 可 以 把 基础 数据 
层 的 数据 和 汇总 数据 抽取 出 来 做 成 接口 数据 ， 提 供 到 库 外 建设 。 对 于 一 些 应 用 较为 复杂 的 
独立 的 情况 ， 把 数据 下 放 到 库 外 应 用 。 而 相对 应 用 简单 的 ， 直 接 在 仓库 内 实施 。 

数据 仓库 建设 一 期 先 把 所 有 源 数据 纳入 数据 仓库 的 基础 数据 层 ， 然 后 加 工 到 汇总 数据 
慢 慢 扩展 数据 仓库 的 内 容 。 
地 址 等 信息 直接 在 基础 数据 层 抽 取 ; 余额 类 的 、 每 天 都 可 能 发 生 
变化 的 数据 先 在 汇总 数据 层 加 工 ， 青 抽取 到 集 市 。 

汇总 数据 层 是 公共 加 工 层 。 汇 总 加 工 一 次 ， 可 以 支持 多 个 应 用 。 例 如 ， 按 客户 、 产 品 进 
行 日 均 、 月 均 加 工 汇总 。 可 以 把 基础 数据 层 的 明细 数据 汇总 到 汇总 数据 层 ， 将 汇总 数据 层 作 


层 ， 随 着 业务 需求 的 增加 ， 
例如 ， 个 人 基本 信息 、 








为 公共 数据 提供 给 应 用 。 











对 于 数据 仓库 中 的 库 内 集 市 来 说 ， 有 以 下 儿 个 特点 ， 如 图 9-15 所 示 。 








业务 部 门 可 以 维护 
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数据 保存 较 少 ， 


天 数据 仓库 中 库 内 集 市 可 以 有 元 余数 据 | 




















内 集 市 的 数据 往往 是 





己 的 数据 集 市 ， 通 六 























包括 数据 仓库 内 的 





性 的 数据 ， 对 明细 




















可 以 直接 应 














内 集 市 往往 是 降 范 式 的 模型 或 者 星 形 模型 和 





图 9-15 数据 仓库 中 








P 的 库 内 集 市 的 特点 





1) 业务 部 门 可 以 维护 自己 的 数据 集 市 ， 通过 自 定义 展示 需要 的 数据 内 容 。 








2) 数据 仓库 中 库 内 集 市 之 间 的 数据 交换 通过 数据 交换 层 来 完成 。 
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3) 数据 仓库 的 库 内 集 市 有 多 个 数据 来 源 ， 包 括 数据 仓库 内 的 汇总 数据 层 和 基础 数 
据 层 。 

4) 数据 仓库 中 库 内 集 市 的 数据 往往 是 统计 性 的 数据 ， 对 明细 数据 保存 较 少 ， 可 以 直接 
应 用 。 
5) 数据 仓库 中 库 内 集 市 可 以 有 宛 余数 据 。 

6) 数据 仓库 中 库 内 集 市 往往 是 降 范式 的 模型 或 者 星 形 模型 和 雪花 形 模 型 。 

下 面 分 析 数 据 仓 库 建 设 的 一 个 重要 方法 ， 如 图 9-16 所 示 : 

1) 在 数据 仓库 的 基础 数据 层 ， 建 立 稳定 的 数据 模型 ， 同 时 建立 数据 标准 ， 实 现 数据 的 
标准 化 和 数据 集中 。 

2) 在 数据 仓库 的 汇总 数据 层 ， 建 立 分 析 类 的 数据 标准 。 对 常用 的 、 重 要 的 业务 指标 进 
行 统一 加 工 计算 。 实 现 业 务 的 汇总 ， 创 建 高 效 的 数据 共享 平台 。 

3) 数据 仓库 的 库 内 集 市 层 包 括 基 础 数据 层 的 视图 、 汇 总 数据 层 的 视图 和 各 种 加 工 视 
图 ， 如 图 9-16 所 示 。 




















数据 缓冲 区 


会 会 会 会 会 
医 醒 医 :本 区 " 丁 医 :本 区 "本 


图 9-16 数据 仓库 建设 的 另外 一 个 重要 方法 








数据 管控 的 范围 包括 元 数据 管理 、 数 据 质 量 管理 和 数据 维护 管理 。 

数据 管控 的 手段 包括 数据 管理 系统 、 调 度 与 监控 系统 和 数据 管理 考核 系统 等 。 其 中 ， 数 
据 管理 考核 系统 帮助 系统 有 效 提升 数据 质量 ， 一 般 采 用 系统 检查 和 人 工 核对 的 方式 进行 数据 
管控 考核 工作 ， 这 种 方式 可 以 有 效 地 推动 数据 管控 制度 的 执行 ， 提 升 数据 质量 ， 促 进 业 务 人 
员 使 用 数据 管理 系统 加 强 数 据 质量 的 管理 。 

建设 数据 仓库 的 方法 之 一 就 是 首先 制定 数据 标准 ， 形 成 数据 仓库 人 逻辑 模型 的 核心 骨架 ， 
然后 以 元 数据 管理 为 基础 ， 保 证 数据 仓库 成 为 可 信和 可 控 的 数据 源 ， 最 后 提高 管理 水 平 。 

总 的 来 说 ， 关 于 数据 仓库 的 定位 有 如 下 几 个 方面 : 
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1) 数据 仓库 中 的 来 源 数据 为 结构 化 的 ， 或 者 是 已 经 结构 化 的 基础 数据 。 

2) 数据 仓库 中 的 数据 都 是 有 用 的 数据 ， 是 经 过 清洗 后 的 数据 。 

3) 数据 仓库 加 工 后 的 数据 可 以 同步 到 数据 应 用 层 ， 由 应 用 层 对 外 提供 服务 。 

4) 数据 仓库 中 的 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 都 有 各 上 自 的 定位 和 用 途 。 

数据 仓库 从 生产 系统 采集 数据 ， 经 过 ETL 过 程 将 数据 加 载 到 数据 仓库 中 ， 然 后 进行 汇 
总 和 加 工 ， 最 后 在 数据 仓库 的 基础 上 提供 各 种 应 用 和 分 析 。 

2. 数据 仓库 关键 设计 点 

基于 业务 及 整体 架构 规划 ， 我 们 讲解 数据 仓库 的 关键 设计 点 。 

(1) 数据 仓库 的 构建 方法 

数据 仓库 的 构建 方法 主要 包括 自 上 而 下 的 实现 方式 和 自 下 而 上 的 实现 方式 ， 如 图 9-17 
所 示 。 
































4 上 而 下 的 实现 方式 自 下 而 上 的 实现 方式 














图 9-17 数据 仓库 的 构建 方法 





e 自 上 而 下 的 实现 方式 

这 种 方式 是 企业 级 的 数据 建 模 和 数据 整合 ， 一 般 按照 第 三 范式 模型 建立 数据 仓库 ， 然 后 
根据 业务 部 门 的 需求 ， 基 于 已 有 的 数据 仓库 建立 相应 的 数据 集 市 。 数 据 集 市 的 数据 来 源 是 数 
据 仓 库 。 建 设 的 条 件 是 业务 需求 较 少 ， 而 数据 准备 区 中 的 基础 数据 又 比较 完整 ， 这 样 可 以 采 
用 自 上 而 下 的 构建 方法 。 将 基础 数据 在 数据 仓库 中 进行 全 面 存储 ， 而 后 续 的 应 用 可 以 随 着 需 
求 的 完善 而 不 断 扩展 。 优 点 是 可 以 进行 宏观 的 全 局 规划 ， 有 和 较 好 的 数据 一 致 性 和 较 低 见 余 。 
缺点 是 建设 周期 长 ， 前 期 很 难 见 到 实际 效益 。 

e 自 下 而 上 的 实现 方式 

按照 业务 需求 通过 渐进 的 方式 建设 数据 仓库 。 首 先 根据 业务 需求 建立 数据 集 市 ， 然 后 把 
一 系列 维度 相同 的 数据 集 市 纳入 到 数据 仓库 中 ， 这 种 分 阶段 的 建设 方式 就 是 自 下 而 上 的 实现 
方式 。 其 中 每 一 阶段 的 数据 集 市 必须 兼容 到 数据 仓库 中 ， 可 以 先 建设 部 门 级 、 面 向 主题 的 数 
据 集 市 ， 然 后 扩建 为 数据 仓库 。 它 的 优点 是 从 业务 需求 出 发 ， 项 目 周期 得。 缺点 是 数据 仓库 
的 一 致 性 难以 保证 ， 数 据 的 元 余 度 较 高 。 

如 果 分 析 类 的 业务 需求 比较 多 ， 同 时 为 了 快速 满足 应 用 的 开发 ， 可 以 采用 自 下 而 上 的 构 
建 方法 ， 先 将 有 业务 需求 的 数据 存储 到 数据 仓库 中 ， 继 而 开发 应 用 ， 然 后 慢 慢 地 补充 数据 仓 
库 中 的 数据 。 

总 之 ， 数 据 仓库 的 构建 方法 是 以 业务 需求 为 导向 的 ， 并 且 不 断 完 善 的 闭环 流程 。 

(2) 数据 仓库 ODS 建设 方法 

ODS 的 概念 也 是 由 比尔 : 恩 门 在 《建立 运营 数据 仓储 》 一 书 中 提出 来 的 。 他 认为 分 析 
决策 需要 基于 实时 的 和 细节 性 的 运营 数据 ， 同 时 也 需要 这 些 数据 是 集成 的 和 面向 主题 的 ， 因 
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此 提出 了 ODS 的 概念 。 

ODS 的 数据 来 自 于 各 个 分 散 的 业务 系统 ， 这 些 数 据 是 面向 主题 的 、 集 成 的 、 变 化 的 和 
反映 当前 情况 的 数据 。 一 般 来 说 ，ODS 和 数据 仓库 作为 独立 的 系统 分 别 进行 建设 。 但 是 随 
着 硬件 水 平 的 提高 ， 有 时 候 0DS 也 被 纳入 到 数据 仓库 中 进行 建设 。 

(3) 数据 集 市 设计 

数据 集 市 基于 业务 需求 的 复杂 度 ， 考虑 设置 库 内 集 市 还 是 库 外 集 市 。 例 如 ， 当 业务 需求 
比较 单一 ， 复 杂 度 较 高 的 时 候 ， 为 了 性 能 上 的 考虑 ， 可 以 建立 库 外 集 市 。 如 果 复 杂 度 较 低 ， 
那么 可 以 在 数据 仓库 内 建立 集 市 。 

(4) 非 结 构 化 数据 在 数据 仓库 的 应 用 

对 于 非 结构 化 数据 ， 可 以 通过 Hadoop 平台 建立 非 结构 化 数据 的 标签 、 摘 要 、 索 引 、 上 日 
志 等 信息 ， 然 后 提取 非 结构 化 数据 的 元 数据 信息 ， 如 类 别 、 索 引 、 摘 要 等 ， 实 现 与 结构 化 数 
据 的 整合 和 关联 分 析 。 在 统计 分 析 应 用 中 ， 可 能 涉 及 结构 化 数据 和 非 结构 化 数据 的 联合 应 
用 ， 也 可 能 是 对 非 结 构 化 数据 的 单独 应 用 ， 如 图 9-18 所 示 。 
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非 结构 化 数据 
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图 9-18 非 结构 化 数据 在 数据 仓库 的 应 用 








(5) 数据 标准 在 数据 仓库 中 的 落地 

在 建设 数据 仓库 之 前 ， 如 果 可 以 先 完成 数据 标准 的 建设 ， 则 有 利于 数据 仓库 在 数据 一 至 
性 方面 的 控制 。 

(6) 关于 数据 仓库 的 灾难 备份 设计 

由 于 地 震 、 水 灾 等 因素 可 能 会 对 数据 安全 造成 危害 ， 因 此 国家 出 台 了 一 系列 法 规 、 政 策 ， 
要 求 各 重要 机 构 进行 灾难 备份 体系 的 建设 。 后 面 会 详细 介绍 数据 仓库 系统 的 灾难 备份 建设 。 

3. 数据 仓库 质量 的 控制 是 数据 治理 的 重要 内 容 

对 数据 仓库 的 质量 控制 是 数据 治理 的 重要 内 容 之 一 。 数 据 仓库 系统 服务 于 经 营 决 策 ， 数 
据 应 该 是 全 面 的 、 真 实 的 和 有 意义 的 。 如 果 数 据 质 量 得 不 到 保证 ， 就 会 使 决策 分 析 者 做 出 错 
误 的 判断 ， 可 能 会 引起 不 可 挽回 的 商业 损失 。 因 此 ， 提 高 数据 质量 是 数据 仓库 系统 建设 的 重 
要 环节 。 

总 体 来 说 ， 数 据 仓 库 对 数据 质量 的 要 求 可 以 归纳 为 以 下 几 点 : 数据 的 正确 性 、 数 据 的 完 
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整 性 、 数 据 的 一 致 性 、 数 据 的 有 效 性 、 数 据 的 时 效 性 、 数 据 的 可 获取 性 和 数据 的 元 余 性 ， 如 
图 9-19 所 示 。 
| | | | | | | 





数据 的 正确 性 数据 的 完整 性 数据 的 一 致 性 数据 的 有 效 性 数据 的 可 获取 性 
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9-19 数据 仓库 对 数据 质量 的 要 求 














。 数据 的 正确 性 
数据 在 数据 仓库 中 是 否 会 正确 体现 。 
。 数据 的 完整 性 
数据 仓库 中 的 数据 是 否 是 完整 的 。 
e 数据 的 一 致 性 
数据 仓库 中 的 数据 是 否 是 一 致 的 。 
e 数据 的 有 效 性 
数据 是 否 在 企业 定义 的 可 接受 范围 之 内 。 
e 数据 的 时 效 性 
数据 在 给 定 的 时 间 内 是 否 有 效 。 
。 数据 的 可 获取 性 
数据 是 否 易于 获取 、 理 解 和 使 用 。 
。 数据 的 元 余 性 
数据 仓库 中 是 否 存 在 不 必要 的 数据 宛 余 。 
技术 类 数据 质量 指标 见 表 9-2。 
表 9-2 技术 类 数据 质量 指标 
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指标 类 型 说 明 
完整 性 实体 的 每 个 属性 都 有 明确 的 值 ， 不 存在 “ 空 ”或 “未 知 ” 的 属性 
相关 性 对 于 数据 库 中 的 某 些 实体 ， 它 们 的 存在 可 能 要 依赖 于 其 他 的 实体 
唯一 性 一 个 表 中 的 一 组 属性 的 值 是 唯一 的 
有 效 性 实体 属性 的 值 要 在 用 户 定义 的 有 效 范围 之 内 
及 时 性 是 否 满 足 业务 应 用 对 数据 的 时 间 要 求 
非 重复 记录 是 否 存 在 多 个 记录 表现 同一 个 实体 的 现象 








业务 类 数据 质量 指标 见 表 9-3。 
表 9-3 ”业务 类 数据 质量 指标 






































指标 类 型 说 明 
真实 性 数据 库 中 实体 必须 与 现实 世界 中 的 对 象 是 一 致 的 
精确 性 指数 据 精 度 是 否 符合 业务 需要 
一 致 性 数据 是 否 和 其 他 系统 的 业务 含义 是 一 致 的 
可 理解 性 数据 本 身 的 含义 是 否 简 单 、 明 确 
可 获得 性 数据 是 否 可 获得 ， 并 满足 业务 使 用 要 求 
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数据 仓库 的 数据 质量 面临 的 挑战 见 表 9-4。 
表 9-4 ”数据 仓库 的 数据 质量 面临 的 挑战 



















































































质量 分 类 关键 问题 
一 致 性 同一 es A dd 信息 含义 是 否 保持 一 致 性 
时 效 性 数据 从 被 知道 到 使 要 多 长 时 间 ， 这 种 延迟 是 否 可 以 被 用 户 接 受 
可 访问 性 数 是 否 可 以 被 需要 的 人 访问 
可 理解 性 数据 是 否 容易 理解 

完整 数据 是 否 有 足够 的 完整 信息 ， 并 且 能 够 用 于 决策 分 析 
正确 反映 现实 数据 是 否 在 任何 时 期 内 都 符合 实际 情况 
汇总 数据 的 准确 性 数据 汇总 是 否 准确 和 可 信 
无 元 余数 据 是 否 有 多 条 记录 表示 同一 个 实体 
数据 质量 存在 问题 的 根本 原因 : 


我 们 可 以 把 数据 质量 存在 问题 的 原因 归 为 以 下 几 类 ， 如 图 9-20 所 示 。 


数据 格式 问题 《ww 数据 一 致 性 问题 


_ -外 ~- 
本 本 蔬 ~ 
f “ 
和 1 
/ 
~ 





业务 逻辑 问题 
图 9-20 ”数据 质量 存在 问题 的 原因 


1) 数据 格式 问题 。 例 如 ， 数 据 的 缺失 、 超 出 了 数据 范围 、 无 效 数据 格式 等 。 








2) 数据 一 致 性 问题 。 出 于 性 能 考虑 ， 可 能 会 去 掉 一 些 外 键 或 者 检查 约束 ， 这 样 可 能 会 
出 现 数据 一 致 性 的 问题 。 

3) 业务 逻辑 问题 。 通 常 是 由 于 数据 库 设计 出 现 问题 所 致 。 

原因 分 析 和 人 解决 思路 : 

1) 在 构造 数据 仓库 的 时 候 ， 如 果 数 据 质量 得 不 到 保证 , 那么 在 后 续 的 构建 过 程 中 ， 数 
据 质量 所 引发 的 问题 会 逐渐 被 放大 。 

2) 数据 质量 问题 会 贯穿 于 项 目的 整个 生命 周期 ， 必 须 面 对 并 且 给 出 解决 办 法 , 尽量 把 
影响 降低 到 最 小 。 通 常情 况 下 ,， 当 遇 到 错误 数据 时 ， 通 过 记录 ， 同 时 打上 错误 的 标记 ， 先 保 
证 这 些 数据 顺利 通过 , 然后 根据 这 些 错 误 标志 , 通过 报表 反映 出 来 。 这 样 可 以 确保 数据 的 完 
整 性 ， 并 且 真 实 反映 数据 源 的 质量 ， 保 证 数据 仓库 的 顺利 实施 和 任务 的 正常 调度 。 

3) 技术 检测 数据 仓库 质量 的 方法 有 多 种 。 例 如 ， 第 一 种 方法 ， 对 于 记录 级 的 ， 可 以 先 
分 离 出 主 表 ， 再 验证 目标 表 和 源 表 中 主 表 的 记录 数 是 否 一 致 。 第 二 种 方法 ， 对 于 字段 级 别 
的 ， 如 有 两 个 团队 ， 一 个 是 开发 组 ， 另 一 个 是 数据 质量 组 ， 当 开发 团队 抽取 出 数据 后 ， 再 由 
数据 质量 组 通过 业务 规则 编写 验证 脚本 ， 验 证 两 边 的 结果 是 否 保持 一 致 。 第 三 种 方法 ， 寻 找 
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不 同 目标 表 中 相同 口径 的 值 ， 验 证 数据 是 否 一 致 。 

4) 在 大 多 数 情 况 下 ， 解 决 数据 仓库 质量 问题 最 根本 的 方法 就 是 从 源头 解决 质量 的 问 
题 ， 但 是 这 种 方式 需要 投入 大 量 人 力 成 本 和 时 间 成 本 。 

5) 可 以 通过 手工 方式 对 数据 仓库 质量 问题 进行 处 理 。 

数据 质量 的 检查 应 该 尽量 在 靠 前 的 位 置 进行 ， 这 样 确保 错误 的 数据 在 前 面 就 被 消除 掉 ， 
因为 每 一 点 的 错误 都 会 导致 在 后 续 的 处 理 过 程 中 被 无 限 放大 。 数 据 的 完整 性 和 正确 性 问题 都 
可 能 因为 ETL 的 错误 导致 ， 可 以 通过 源 和 目标 的 汇总 对 比 ， 找 出 差异 ， 从 而 确定 数据 的 完 
整 性 和 正确 性 是 否 有 问题 。 

数据 仓库 质量 问题 解决 办 法 可 参考 案例 如 图 9-21 所 示 。 


















































| 采用 抽样 、 统 计 分 析 时 车 采用 两 端 对 比 等 手段 
| i | 确保 数据 质量 
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图 9-21 数据 仓库 质量 问题 解决 办 法 参考 案例 





(1) 采用 抽样 、 统 计 分 析 等 技术 手段 提高 数据 的 质量 

对 于 数据 仓库 来 说 ， 它 主要 存储 的 是 大 量 的 历史 数据 ， 无 形 当中 加 大 了 数据 质量 检查 的 
难度 ， 如 何 保证 进入 数据 仓库 中 的 数据 是 高 质量 呢 ? 可 以 采用 抽样 和 统计 分 析 等 技术 手段 提 
高 数据 的 质量 ， 并 且 提高 数据 仓库 的 高 效 性 。 

它 的 具体 做 法 是 通过 抽 数 定理 抽取 少 部 分 的 样本 数据 ， 然 后 进行 系统 级 别 的 数据 校 验 。 
如 果 出 现 系统 级 别 的 错误 ， 则 马上 返回 。 如 果 没 有 出 现 系 统 级 别 的 错误 ， 则 对 数据 抽样 取得 
的 数据 进行 质量 打分 。 如 果 数 据 质量 的 分 数 较 高 ， 那 么 它 的 入 库 校 验 相对 简单 ， 即 校 验 规则 
相对 简单 ， 入 库 的 效率 就 很 高 。 如 果 数 据 质 量 的 分 数 较 低 ， 那 么 它 的 入 库 校 验 相 对 复杂 ， 也 
就 是 校 验 规 则 相对 复杂 。 因 此 ， 可 以 将 入 库 的 校 验 可 配置 化 。 

(2) 采用 两 端 对 比 等 手段 确保 数据 质量 

对 于 数据 仓库 的 数据 质量 来 说 ， 它 可 以 进行 人 库 时 的 格式 校 验 和 仙 辑 校 验 ， 当 入 库 后 ， 
再 通过 两 端 对 比 等 手段 确保 数据 质量 。 所 谓 两 端 对 比 是 指 在 源 系统 中 抽取 出 一 部 分 数据 ， 再 
和 数据 仓库 中 的 一 部 分 数据 进行 核对 。 

综 上 所 述 ， 第 一 种 方式 是 采用 抽样 、 统 计 分 析 的 方法 发 现 数据 的 系统 错误 ， 以 及 提高 数 
据 校 验 的 效率 ， 将 数据 质量 校 验 都 集中 在 入 库 前 完成 ， 人 库 后 的 数据 质量 问题 主要 通过 异议 
处 理 等 手段 来 实现 。 

这 种 采用 抽样 、 统 计 分 析 的 校 验 数据 方法 ， 对 于 质量 好 的 数据 采取 相对 宽松 的 校 验 规 
则 ， 对 于 质量 差 的 数据 采取 相对 严格 的 校 验 规 则 ， 这 样 会 大 大 提高 数据 的 加 载 效 率 。 然 后 对 
于 通过 检验 的 数据 ， 再 逐条 进行 检查 ， 同 时 对 于 校 验 规则 的 有 效 性 ， 不 断 进行 调整 ， 尽 量 保 
证 入 库 数 据 的 质量 。 因 此 ， 第 一 种 方法 是 较为 先进 的 方法 。 

4. 在 大 数据 环境 下 的 数据 仓库 的 建设 

大 数据 是 指 无 法 在 一 定时 间 内 ， 用 传统 型 的 数据 库 软 件 对 其 内 容 进行 抓 取 、 管 理 和 处 理 
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的 数据 集合 。 大 数据 用 于 在 成 本 可 承受 的 条 件 下 ， 通 过 非常 快速 采集 、 发 现 和 分 析 ， 从 大 量 
的 、 多 类 别 的 数据 中 提取 价值 。 大 数据 是 一 系列 技术 的 集合 ， 汇 集 了 如 Hadoop/ Mapreduce、 
一 体 机 、NoSQL、 数 据 分 析 与 挖掘 、 商 业 智能 、 数 据 仓库 等 。 

通过 对 大 数据 的 处 理 和 分 析 ， 可 以 发 掘 出 巨大 的 价值 ， 包 括 商业 价值 和 社会 价值 。 

关于 大 数据 环境 下 的 数据 仓库 架构 ， 如 图 9-22 所 示 。 
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图 9-22 大 数据 环境 下 的 数据 仓库 架构 








流 数 据 强调 的 是 实时 处 理 与 分 析 ， 而 不 是 数据 存储 ， 因 此 一 般 只 在 内 存 中 进行 处 理 ， 随 
着 数据 的 流动 、 处 理 和 分 析 ， 只 针对 一 定时 间 内 的 流 数 据 进 行 处 理 和 分 析 。 

对 于 数据 仓库 来 说 ， 存 储 的 都 是 “金子 ”， 全 部 都 是 有 用 的 信息 。 而 Hadoop 平台 存储 
的 都 是 “ 金 矿石 ” ，Hadoop 平台 的 目的 是 为 了 把 “ 金 矿石 ”里 的 “金子 ”筛选 出 来 。 

所 有 的 非 结 构 化 数据 都 是 通过 Hadoop 平台 进行 分 析 ， 例 如 通过 网 络 收集 信息 ， 分 析 人 
们 对 银行 的 情感 分 析 ， 包 括 正面 、 负 面 的 信息 。 同 时 包括 针对 银行 的 预警 分 析 等 。 

非 结 构 化 的 数据 可 以 经 过 结构 化 处 理 ， 再 与 数据 仓库 中 的 数据 结合 起 来 分 析 ， 或 者 单独 
对 非 结构 化 数据 进行 分 析 。 


9.2.4 数据 仓库 数据 模型 


1. 数据 仓库 模型 设计 原则 
数据 仓库 模型 的 设计 原则 包括 一 致 性 、 可 扩展 性 、 不 倾向 性 、 高 效 性 和 可 回溯 性 ， 如 


图 9-23 所 示 。 
可 扩展 性 ee 高 效 性 
三 殖 考 可 回 淹 性 


图 9-23 ”数据 仓库 模型 的 设计 原则 
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数据 仓库 模型 的 设计 原则 的 相关 内 容 见 表 9-5。 
表 9-5 数据 仓库 模型 的 设计 原则 的 相关 内 容 
设计 原则 相关 内 容 





数据 仓库 的 数据 模型 必须 在 设计 过 程 中 保持 一 个 统一 的 业务 定义 。 统 一 业务 的 定义 


模型 的 一 致 性 a ds Ee dy 
和 概念 ， 方 便 不 同系 统 的 设计 、 开 发 人 员 在 进行 功能 设计 和 数据 展现 时 的 沟通 和 交流 




















业务 需求 是 随时 变化 的 ， 因 此 模型 设计 需要 遵循 “以 不 变 应 万 变 ， 以 小 变 应 大 
模型 的 可 扩展 性 变 ” 的 设计 思想 ， 当 业务 部 门 后 续 有 新 的 需求 时 ， 模 型 不 需要 做 更 改 , 或 者 只 需 做 
轻微 的 更 改 即 可 满足 业务 需求 




















模型 不 倾向 性 的 含义 是 : 模型 中 的 数据 结构 不 倾向 于 源 系统 ， 也 不 倾向 于 上 层 应 
基础 数据 层 模型 的 不 倾向 性 “| 用 ， 不 应 该 和 它们 发 生 耦 合 ， 即 模型 底层 存储 的 是 基础 明细 数据 ， 不 应 倾向 于 某 数 
据 源 ， 也 不 应 该 为 某 个 业务 部 门 的 应 用 需求 做 任何 特殊 加 工 





























数据 仓库 处 理 的 数据 量 巨大 ， 而 且 随 着 业务 量 增 加 ， 数 据 的 处 理 效率 必然 受到 影 























数据 加 工 高 效 性 
响 ， 因 此 ， 在 模型 设计 时 ， 需 要 能 够 在 给 定时 间 窗 口内 处 理 海量 数据 

0， 数 据 仓库 上 线 | 员 查 时 ， 发 现 前 几 天 数据 有 误 ， 需 要 重 裔 
数据 加 工 可 回溯 性 例如 ， 数 据 仓 库 上 线 后 ， 业 务 人 员 查看 报表 时 ， 发 现 前 几 天 数据 有 误 ， 需 要 重新 

















加 载 数据 ， 此 时 模型 需要 支持 重新 加 载 之 前 的 数据 





设计 数据 仓库 模型 的 方法 原则 包括 : 可 维护 性 、 规 范 性 、 粒 度 、 历 史 性 和 可 用 性 ， 如 
图 9-24 所 示 。 





可 维护 性 规范 性 粒度 历史 性 





图 9-24 数据 仓库 模型 的 方法 原则 


数据 仓库 模型 的 方法 原则 的 相关 内 容 见 表 9-6。 
表 9-6 数据 仓库 模型 的 方法 原则 的 相关 内 容 

































































方法 原则 相关 内 容 
数据 流向 清晰 ， 依 赖 关系 简单 ， 当 有 需求 变更 或 者 出 现 问题 时 ， 将 影响 降 至 最 
费 型 的 可 维护 
人 低 ， 能 够 快速 维护 
模型 设计 规范 性 模型 设计 时 ， 必 须 遵循 一 定 的 设计 规范 ， 如 命名 规范 、 业 务 规则 规范 等 
a 为 了 满足 将 来 不 同 的 应 用 需求 ， 数 据 仓库 模型 能 够 提供 最 小 粒度 的 详细 数据 ， 以 
8 支持 各 种 可 能 的 分 析 查 询 
a 数据 仓库 要 存储 历史 记录 ， 比 如 保留 帐户、 客户 信息 每 次 变化 的 痕迹 ， 账 户 的 转 
四 账 交易 数据 等 
人 数据 仓库 模型 需要 很 方便 地 支持 业务 需求 ， 数 据 仓库 模型 设计 完成 后 ， 基 于 之 上 
四 一 的 报表 开发 、 查 询 开 发 都 很 方便 、 快 捷 








2. 数据 仓库 模型 设计 策略 

按照 数据 仓库 模型 的 设计 原则 ， 建 议 在 数据 仓库 模型 设计 中 采取 如 图 9-25 所 示 的 设计 
策略 ， 包 括 : 数据 仓库 模型 设计 分 层 ; 失效 日 期 填写 为 默认 值 ， 不 采用 空 值 ; 利用 时 间 鹤 ， 
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保留 历史 数据 ;对 大 表 进 行 分 区 ; 将 设计 流程 规范 化 ; 采用 主流 的 设计 工具 ; 数据 和 索引 分 
别 存 储 在 不 同 的 表 空间 中 ; 对 于 特定 的 缓慢 变化 维 ， 使 用 代理 键 ; 公用 数据 处 理 前 置 。 
失效 日 期 填写 为 默认 值 ， 不 采用 空 值 利用 时 间 戳 ， 保 留 历 史 数据 
数据 仓库 模型 设计 分 层 













































对 大 表 进 行 分 区 


将 设计 流程 规范 化 











公用 数据 处 理 前 置 























采用 主流 的 设计 工具 














对 于 特定 的 缓慢 变化 维 ， 使 用 代理 键 数据 和 索引 分 别 存储 在 不 同 的 表 空 间 中 








图 9-25 数据 仓库 模型 设计 策略 
9.2.5 数据 仓库 建设 路 线 图 


数据 仓库 的 建设 一 般 可 以 分 成 三 个 阶段 进行 。 

第 一 阶段 : 

完成 数据 仓库 模型 的 建设 。 因 为 数据 仓库 是 面向 主题 的 、 集 成 的 、 历 史 的 、 相 对 稳定 的 
数据 的 集合 。 对 于 面向 主题 、 集 成 的 特点 ， 数 据 仓 库 的 数据 应 该 按照 仓库 的 模型 进行 存储 和 
摆 放 。 对 于 模型 的 建设 ， 在 整个 数据 仓库 建设 中 占 了 相当 大 的 比重 。 建 设 的 内 容 主要 包括 完 
成 数据 仓库 企业 级 的 概念 模型 和 应 用 级 的 逻辑 模型 的 建设 ， 最 后 完成 基于 数据 仓库 物理 模型 
的 实现 。 

第 二 阶段 : 

按照 数据 仓库 的 模型 ， 将 基础 数据 、 产 品 数 据 或 者 日 志 数 据 在 数据 仓库 中 进行 存放 ， 并 
且 完 成 历史 数据 的 迁移 。 具体 的 建设 内 容 可 以 包括 ， 建设 数据 仓库 的 基础 数据 层 ， 开 发 校 验 
规则 ， 对 入 库 的 数据 进行 检查 ， 最 后 完成 历史 数据 的 迁移 。 因 为 数据 仓库 需要 对 历史 数据 进 
行 统 计 和 分 析 ， 所 以 包含 了 历史 数据 迁移 的 工作 。 它 的 数据 流转 如 图 9-26 所 示 ， 源 数据 通 
过 数据 交换 层 将 数据 放 入 到 数据 仓库 中 。 

第 三 阶段 : 

完成 数据 仓库 汇总 数据 层 的 设计 ， 包 括 数 据 集 市 的 设计 ， 最 后 将 数据 仓库 数据 加 工 后 导 
入 到 数据 集 市 中 。 数 据 仓 库 建设 的 内 容 包括 完成 数据 仓库 汇总 数据 层 的 设计 和 数据 仓库 库 内 
集 市 层 的 加 工 。 数 据 仓库 的 数据 流转 如 图 9-27 所 示 ， 汇 总 数据 层 的 数据 来 自 于 基础 数据 层 
的 数据 ， 库 内 集 市 层 的 数据 来 自 于 汇总 数据 层 数据 或 者 基础 数据 层 数 据 ， 库 内 集 市 层 数据 加 
工 完 成 后 同步 到 各 个 应 用 中 ， 并 且 对 外 提供 相应 的 服务 。 
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图 9-26 数据 流转 图 
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图 9-27 建设 的 内 容 


9.2.6 关于 数据 仓库 系统 的 灾难 备份 规划 


任何 灾难 造成 的 数据 仓库 系统 停 运 ， 都 会 对 一 些 重要 机 构 产 生 重 大 的 影响 ， 特 别 是 金融 
机 构 。 根 据 国务 院 信息 办 《重要 信息 系统 灾难 恢复 指南 》《 信 息 安全 风险 评估 指南 》 和 中 国 
人 民 银 行 《 银 行业 信息 系统 灾难 恢复 管理 规范 》， 对 灾难 做 如 下 定义 : 

灾难 是 由 于 人 为 或 自然 的 原因 ， 造 成 信息 系统 运行 严重 故障 或 次 痪 ， 使 信息 系统 支持 的 
业务 功能 停顿 或 服务 水 平 不 可 接受 、 达 到 特定 的 时 间 的 突 发 性 事件 ， 通 常 导 致 信息 系统 需要 
切换 到 备用 场地 运行 。 

很 多 金融 机 构 为 了 预防 灾难 ， 都 会 对 重要 的 系统 建设 同城 和 异地 的 数据 备份 中 心 ， 对 于 
同城 的 数据 备份 中 心 来 说 ， 它 可 以 接管 所 有 核心 的 业务 系统 ， 而 异地 数据 备份 中 心 应 该 具备 
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恢复 所 需 环境 的 能 力 ， 并 且 时 刻 处 于 运行 或 者 就 绪 状 态 。 下 面 详细 介绍 关于 数据 仓库 的 灾难 
备份 〈 灾 难 备份 ) 架构 规划 。 
1. 灾难 备份 建设 的 方法 论 
关于 灾难 备份 建设 的 方法 论 ， 主 要 分 成 以 下 几 个 阶段 : 分 析 阶 段 、 架 构 设 计 阶 段 、 技 术 
方案 选择 阶段 、 实 施 阶段 、 维 护 阶 段 ， 如 图 9-28 所 示 。 
架构 设计 阶段 
Ce 









分 析 阶 段 技术 方案 选择 阶段 


灾难 备份 建设 
方法 论 


SS / 


图 9-28 ”灾难 备份 建设 的 方法 论 

















(1) 分 析 阶 段 

分 析 因 为 中 断 和 灾难 对 该 机 构造 成 的 影响 ,确定 系统 恢复 的 优先 顺序 和 相关 性 ， 包 括 恢 
复 的 时 间 目 标 和 恢复 点 目标 ， 明 确 关键 功能 的 业务 连续 性 需求 等 。 

(2) 架构 设计 阶段 

确定 灾难 备份 业务 恢复 策略 ， 进 行 灾难 备份 架构 的 设计 ， 以 便 在 规定 时 间 内 恢复 业务 系统 。 

(3) 技术 方案 选择 阶段 

在 选择 方案 方面 ， 首 先 了 解 IT 系统 建设 现状 以 及 发 展 趋势 ， 其 次 是 对 灾难 备份 技术 进 
行 评 估 ， 提 出 方案 建议 ， 最 后 结合 成 本 收益 ， 选 择 最 佳 方案 并 实施 。 

(4) 实施 阶段 

制定 实施 业务 连续 性 的 计划 ， 便 于 在 规定 时 间 内 完成 业务 的 恢复 。 包 括 建立 紧急 事件 处 
理 中 心 。 对 于 金融 行业 来 说 ， 一 般 都 需要 进行 “两 地 三 中 心 ”的 建设 , 例如 ， 在 第 一 期 完 
成 同城 灾难 备份 中 心 的 建设 ， 第 二 期 完成 异地 灾难 备份 中 心 的 建设 。 

同城 灾难 备份 中 心 是 指 生产 中 心 和 灾难 备份 中 心 在 同一 个 城市 或 者 相近 区 域内 ， 主 要 防 
范 火 灾 、 建 筑 物 破坏 等 灾难 风险 ， 保 证 在 生产 中 心 遭 到 灾难 打击 后 ， 在 极 短 的 时 间 内 可 以 快 
速 恢 复 运营 。 但 是 同城 灾难 备份 对 大 规模 灾难 的 防范 能 力 较 弱 。 

异地 灾难 备份 中 心 是 指 生产 中 心 和 灾难 备份 中 心 距离 比较 远 ， 可 能 是 跨 省 或 者 跨 区 域 。 
利用 先进 的 远程 数据 备份 技术 和 可 靠 的 网 络 通信 可 以 实现 异地 灾难 备份 。 

(5) 维护 阶段 

开展 对 全 部 工作 人 员 的 灾难 备份 意识 培养 和 技能 培训 工作 。 制 定 合适 的 规章 制度 和 策 
略 ， 以 保证 各 个 部 门 之 间 的 协调 响应 。 

2. 需求 分 析 与 灾难 备份 策略 

针对 灾难 备份 建设 的 需求 分 析 与 灾难 备份 策略 设计 ， 主 要 包含 以 下 几 个 步 又: 现状 分 
析 、 风 险 分 析 、 业 务 影响 分 析 和 灾难 备份 策略 选择 ， 如 图 9-29 所 示 。 
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业务 影响 分 析 二 上 灾难 备份 策略 选择 











图 9-29 ”需求 分 析 与 灾难 备份 策略 











(1) 现状 分 析 

现状 分 析 主 要 包括 对 应 用 系统 、 网 络 情况 和 数据 系统 的 分 析 。 

应 用 系统 的 分 析 主 要 包括 服务 器 部 署 环 境 分 析 、 操 作 系 统 分 析 、 数 据 库 系统 分 析 和 应 用 
关联 关系 分 析 等 内 容 。 其 中 服务 器 部 署 环境 分 析 包括 生产 中 心服 务 器 系统 现状 分 析 (小 型 
机 服务 器 系统 、PC 服务 器 系统 等 )、 生 产 中 心 存储 系统 现状 分 析 (存储 系统 情况 、 生 产 数 
据 情 况 )、 数 据 备 份 情 况 等 。 数 据 系统 分 析 是 对 各 个 业务 系统 的 数据 存储 情况 进行 分 析 。 

(2) 风险 分 析 

风险 分 析 需 要 对 数据 中 心 的 物理 环境 、 运 行 状 况 进行 梳理 。 风 险 分 析 的 结果 可 以 作为 业 
务 连续 性 规划 的 工作 数据 。 

从 系统 可 靠 性 和 性 能 的 角度 识别 服务 器 、 操 作 系 统 、 数 据 库 、 存 储 和 网 络 的 风险 。 识 别 
可 能 造成 系统 中 断 的 各 种 风险 。 

根据 识别 出 来 的 风险 ,判断 是 否 在 用 户 能 够 接受 的 范围 之 内 。 对 于 不 能 接受 的 风险 ， 判 
断 是 否 可 以 通过 技术 或 者 管理 手段 去 防范 和 控制 风险 。 同 时 提供 降低 风险 和 控制 风险 的 合理 
建议 。 

风险 分 析 工 作 的 流程 主要 包括 : 前 期 调研 、 问 卷 整 理 、 现 场 访谈 ， 以 及 撰写 及 提交 报 
告 ， 如 图 9-30 所 示 。 

















风险 分 析 工 作 的 
流程 


撰写 及 提交 报告 





图 9-30 ”风险 分 析 工 作 的 流程 
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1) 前 期 调研 。 

主要 针对 业务 系统 进行 调研 ， 了 解 开 系统 的 架构 、 业 务 运 行情 况 和 应 用 系统 运行 情况 
等 内 容 ， 确 定 风 险 评 估 的 应 用 范围 。 通 过 前 期 调研 ， 了 人 解 相 关 部 门 的 组 织 架 构 、 人 员 职 责 
等 ， 为 后 面 的 问卷 调研 做 好 准备 。 

2) 问卷 整理 。 




















通过 对 用 户 管理 现状 的 调研 ， 编 写 调查 问卷 ， 可 以 把 调查 问卷 内 容 分 成 以 下 几 个 部 分 : 
IT 系统 基础 架构 ， 开 发 和 运 维 管理 ， 基 础 设施 建设 ， 机 房管 理 等 。 针 对 相应 的 管理 人 员 和 
技术 人 员 进 行 访 谈 ， 整 理 问卷 的 访谈 结果 ， 识 别管 理 过 程 中 存在 的 各 种 问题 ， 制 定 对 各 种 风 
险 的 分 类 和 定义 。 双 方 达成 一 致 。 

问卷 涉及 的 内 容 如 图 9-31 所 示 。 


问卷 涉及 的 内 容 ) 





开发 和 运 维 
基础 架构 管理 





图 9-31 问卷 涉及 的 内 容 


e IT 系统 基础 架构 

IT 系统 基础 架构 是 针对 IT 基础 架构 管理 设计 的 ， 问 卷 主 要 偏重 于 主机 、 数 据 库 、 网 络 
和 各 种 存储 设备 等 。 该 问卷 的 目的 是 了 解 IT 系统 基础 架构 和 运行 维护 方面 的 情况 。 

e 开发 和 运 维 管理 

问卷 主要 偏重 于 软件 架构 的 灵活 性 、 安 全 性 、 可 用 性 和 可 靠 性 的 调研 ， 目 的 是 从 架构 的 
角度 了 解 软件 开发 的 部 署 、 运 维 管理 方面 的 情况 。 同 时 间 卷 也 倾向 于 服务 水 平 、 故 障 处 理 、 
故障 分 类 等 领域 。 目 的 是 收集 在 过 去 运 维 过 程 中 发 生 的 各 类 安全 事件 等 信息 。 

。 基础 设施 建设 

基础 设施 建设 主要 是 针对 基础 设施 现状 和 运 维 能 力 而 设计 的 ， 问 卷 主要 偏重 于 基础 设施 
的 建设 标准 、 运 行 现状 、 管 理 水 平和 运行 监控 等 能 力 的 调研 。 

e 机 房管 理 

机 房管 理 主要 针对 机 房 基 础 设施 管理 进行 调研 ， 包 括 机 房 的 运行 能 力 ， 目 的 是 收集 机 房 
运行 的 潜在 风险 和 曾经 发 生 的 各 类 安全 事故 。 

3) 现场 访谈 。 现 场 访谈 是 在 问卷 调研 的 基础 上 进行 的 ， 首 先 对 问卷 调研 结果 进行 初步 
整理 ， 确 定 访谈 的 策略 ， 然 后 总 结 访谈 的 结果 ， 得 出 相关 系统 脆弱 性 的 列表 。 可 以 在 开 部 
门 范 围 内 选择 技术 骨干 进行 访谈 和 交流 。 将 调研 结果 和 行业 标准 、 最 佳 实践 进行 比较 ， 把 握 
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企业 管理 水 平 的 现状 ， 为 降低 和 控制 信息 管理 风险 提供 可 行 的 意见 。 

4) 撰写 及 提交 报告 。 根 据 前 期 讨论 的 结果 ， 结 合 信 息 管理 风险 的 评 佑 方法， 进行 风险 
识别 、 等 级 分 析 等 工作 。 同 时 ， 撰写 风险 评估 报告 ， 正式 提交 文档 。 

(3) 业务 影响 分 析 

业务 影响 分 析 (Business Impact Analysis) ,简称 BIA。 英 国标 准 协 会 制定 的 关于 业务 连 
ee 一 种 分 析 机 构 的 业务 功能 以 及 一 旦 业务 中 断 所 带 来 的 影响 的 过 程 ”。 

影响 分 析 是 通过 调研 ,分析 信 息 系统 事故 或 者 灾难 造成 业务 中 断 时 所 产生 的 影响 和 业务 
ee 评估 各 业务 功能 的 灾难 恢复 需求 ， 为 制定 灾难 恢复 策略 提供 依据 。 

业务 影响 分 析 的 流程 如 图 9-32 所 示 。 











图 9-32 ”业务 影响 分 析 的 流程 


业务 影响 分 析 的 流程 是 首先 识别 组 织 业 务 活动 、 评 估 中 断 造 成 的 影响 、 确 定 容忍 中 断 时 
间 ， 然 后 确定 关键 业务 活动 及 恢复 优先 顺序 ， 识 别 关键 活动 依赖 的 开 资源 ， 确 定 目标 恢复 
时 间 、 恢 复 的 资源 ， 最 后 形成 业务 影响 分 析 报 告 

具体 的 业务 影响 分 析 实 施 步 又 如 图 9-33 所 示 ， 主要 包括 前 期 沟通 、 调 研 问卷 、 培 训 、 
访谈 和 撰写 报告 调研 问卷 

1) 前 期 沟通 。 主要 针对 业务 影响 分 析 的 pr 
工作 内 容 和 方法 进行 沟通 ， 根 据 实 际 情况 ， 确 
定 业 务 影响 分 析 的 工作 范围 和 实施 方式 。 

2) 调研 问卷 。 根 据 前 期 IT 现状 梳理 及 应 
用 关联 分 析 的 结果 ， 对 调研 问卷 进行 客户 化 修 
订 ， 以 方便 业务 人 员 能 够 准确 、 客 观 地 进行 


© © 
De 井 行 两 撰写 报告 访谈 
3) 培训 。 对 业务 人 员 进 行业 务 影响 分 析 


问卷 填写 的 培训 ， 使 参与 实施 的 业务 部 门 了 解 图 9-33 业务 影响 分 析 实 施 步 又 
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实施 业务 影响 分 析 的 意义 。 

4) 访谈 。 各 业务 部 门 对 业务 影响 分 析 调 研 问 卷 进行 填写 。 确 认 问 卷 填写 内 容 ， 了 解 补 
充 信息 。 

5) 撰写 报告 。 根 据 调研 收集 的 资料 ， 完 成 报告 初稿 。 最 后 整理 出 业务 影响 分 析 报 告 。 

(4) 灾难 备份 策略 选择 

通过 业务 影响 分 析 ， 确 定 业 务 之 间 的 关键 功能 和 其 中 的 关键 点 ， 决 定 业 务 连 续 性 策略 和 
所 需 成 本 。 利 用 这 一 信息 ， 管 理 层 可 以 制订 出 合适 的 灾难 备份 策略 。 一 般 来 说 ， 典 型 的 灾难 
备份 中 心 策略 包括 : 系统 容 灾 的 等 级 和 灾难 备份 中 心 的 运行 模式 。 

关于 灾难 备份 策略 的 选择 ， 只 有 在 充分 调研 现状 的 基础 上 ， 制定 符合 机 构 现 状 的 策略 ， 
实现 灾难 备份 系统 建设 的 真正 落地 ， 才 能 发 挥 出 应 有 的 价值 。 灾 难 备份 策略 选择 主要 包含 六 
个 级 别 : 

。 第 一 个 级 别 

每 周至 少 进行 一 次 数据 备份 ， 在 灾难 应 对 方面 ， 是 经 过 测试 和 演练 的 灾难 恢复 预案 。 

。 第 二 个 级 别 

在 满足 第 一 个 级 别 的 基础 上 ， 对 备用 数据 处 理 系 统 和 网 络 系统 进行 定义 。 

。 第 三 个 级 别 

每 天 进行 一 次 完整 的 数据 备份 ， 利 用 网 络 进行 定时 的 数据 备份 传输 。 

e 第 四 个 级 别 

在 第 三 个 级 别 的 基础 上 ， 配 置 灾难 恢复 所 需 的 全 部 数据 处 理 设备 和 网 络 设备 ， 并 且 处 于 
就 绪 状 态 。 

。 第 五 个 级 别 

要 求 数 据 备份 系统 达到 实时 数据 传输 的 能 力 ， 灾 难 备份 中 心 可 以 提供 7 x24 小 时 的 技术 
文 持 能 力 。 

。 第 六 个 级 别 

要 求 达到 对 远程 数据 的 实时 备份 ， 达 到 零 数据 丢 失 。 

3. 灾难 备份 方案 设计 

为 了 提高 风险 管理 能 力 ， 需 要 建立 符合 国际 标准 的 业务 连续 性 保障 体系 ， 主 要 包括 需求 
分 析 、 灾 难 识别 、 灾 难 备份 启动 、 灾 难 备份 恢复 和 灾难 备份 切换 演练 。 通 过 “两 地 三 中 心 ” 
的 规划 布局 ， 保 障 核心 数据 的 安全 和 业务 的 连续 性 。 

完成 生产 中 心 灾难 备份 系统 的 建设 ,使 生产 中 心 具备 较 强 的 防 灾 、 抗 灾 能 力 ， 以 避免 因 
为 意外 灾难 引起 的 不 良 后 果 ， 大 大 减少 损失 。 

下 面 讲解 主要 从 几 个 方面 进行 灾难 备份 体系 的 建设 ， 如 图 9-34 所 示 ， 包 括 灾 难 接管 和 恢 
复 、 应 用 处 理 能 力 、 数 据 备份 与 数据 复制 、 网 络 备份 系统 和 “两 地 三 中 心 ”建设 总 体 方案 等 。 

其 中 “两 地 三 中 心 ”建设 总 体 方案 的 目的 是 保证 数据 仓库 系统 的 抗灾 能 力 ， 系 统 可 以 快 
速 恢 复 ， 如 图 9-35 所 示 。 

灾难 备份 系统 建设 的 流程 如 图 9-36 所 示 ， 包括 规划 设计 阶段 、 实 施 阶段 和 运营 管理 
阶段 。 

e 规划 设计 阶段 

规划 设计 阶段 主要 包括 灾难 备份 需求 分 析 、 灾 难 备份 建设 规划 、 技 术 方案 设计 等 内 容 。 
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应 用 处 理 能 力 ”数据 备份 与 数据 复制 











“两 地 三 中 心 ”建设 总 体 方案 
图 9-34 ”生产 中 心 灾 难 备份 系统 的 建设 
生产 中 心 同城 灾难 备份 中 心 异地 灾难 备份 中 心 























同城 复制 
9-35 “两 地 三 中 心 ” 总 体 建设 方案 
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规划 设计 阶段 
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9-36 灾难 备份 系统 建设 的 流程 


。 实施 阶段 

实施 阶段 主要 包括 灾难 备份 中 心 的 建设 、 灾 难 备份 中 心 运营 管理 体系 的 建设 、 灾 难 备份 
系统 的 验证 等 内 容 。 

。 运营 管理 阶段 

运营 管理 阶段 主要 包括 异地 灾难 备份 系统 日 常 运营 管理 、 灾 难 备份 系统 切换 、 生 产 运 行 管 
等 内 容 。 

4. 灾难 备份 应 急 预案 与 灾难 备份 演练 

(1) 灾难 备份 应 急 预 案 

灾难 备份 应 急 预 案 是 在 数据 仓库 系统 灾难 发 生 之 前 ， 建 立 相 应 的 灾难 恢复 组 织 并 制定 相 
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关 人 员 职 责 。 这 样 可 以 确保 灾难 备份 运行 规范 。 
例如 ， 当 应 用 系统 故障 ， 存 储 系统 故障 ， 人 为 错误 ， 网 络 故 障 ， 水 灾 、 火 灾 、 地 震 等 灾 
难 ( 见 图 9-37) 发 生 时 ， 知 道 如 何 进行 应 急 处 理 。 


存储 系统 故障 








应 用 系统 故障 














® © 


水 灾 、 火 灾 、 地 震 等 灾难 @ © 网 络 故障 


图 9-37 不 同 故障 、 错 误 或 灾难 发 生 时 均 有 灾难 备份 应 急 预 案 


1) 应 用 系统 故障 。 当 应 用 系统 发 生 故 障 时 ， 可 以 采用 双 机 热 备 的 方式 进行 切换 。 

人 

3) 人 为 错误 。 可 以 通过 提取 本 地 数据 库 快 照 ， 将 数据 恢复 到 灾难 时 间 点 前 。 

4) 网 络 故障 。 当 生产 中 心 的 网 络 发 生 故 障 时 ， 通 过 设备 元 余 解 决 该 问题 。 

5) 水 灾 、 火 灾 、 地 震 等 灾难 。 当 水 灾 、 火 灾 、 地 震 等 灾难 发 生 时 ， 通 过 重新 部 署 硬件 
设施 ， 利 用 灾难 备份 中 心 的 业务 数据 ， 在 短 时 间 内 恢复 生产 。 

(2) 灾难 备份 演练 

根据 数据 仓库 系统 灾难 备份 技术 方案 ， 对 灾难 备份 演练 涉及 的 部 门 、 人 员 ， 系 统 范围 ， 
演练 步 又， 进度 安排 ， 防 范 措施 等 内 容 提 出 建议 。 灾 难 备份 演练 需要 制定 灾难 备份 演练 计 
划 ， 实 施 容 灾 技 术 切换 演练 ， 对 演练 工作 进行 总 结 和 评估 。 最 后 ， 针 对 演练 过 程 中 的 问题 提 
出 改进 建议 。 

当 演 练 结束 后 ， 需 要 对 相关 预案 及 操作 手册 进行 完善 

灾难 备份 演练 可 以 有 以 下 两 种 场景 : 

1) 当 生产 中 心 发 生火 灾 、 数 据 丢失 等 事件 时 ， 会 造成 系统 中 断 。 这 时 可 以 直接 启用 同 
城 灾难 备份 中 心 。 例 如 ， 当 灾难 发 生 后 ， 生 产 中 心 数据 遭 到 损坏 ， 造 成 系统 不 可 用 ， 业 务 中 
断 ， 直 接 启用 同城 灾难 备份 中 心 接管 生产 。 

2) 当 生 产 中 心 系统 恢复 后 ， 回 切 生 产 中 
心 ， 继 续 业务 运行 。 

5. 灾难 备份 中 心 建设 这 放 入 光 

数据 仓库 系统 灾难 备份 中 心 的 建设 主要 包 
括 基础 设施 建设 、 人 员 组 织 机 构建 设 、 运 维 管 二 0 So 
理 体 系 建设 ， 如 图 9-38 所 示 。 

(1) 基础 设施 建设 

生产 中 心 和 灾难 备份 中 心 应 该 保持 一 定 的 
距离 ， 同 时 应 该 保证 电力 供给 的 可 靠 性 及 交通 
的 便捷 性 ， 远 离 火 灾 隐 患 和 地 质 、 地 震 灾 害 的 ” 图 9-38 数据 仓库 系统 灾难 备份 中 心 的 建设 
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高 发 区 域 。 关 于 灾难 备份 中 心 的 选 址 ， 应 该 考虑 以 下 几 种 因素 : 地理 位 置 、 配 套 的 设施 、 人 
力 资源 条 件 、 地 区 政策 、 周 边 环 境 、 建 设 和 运营 的 成 本 ， 如 图 9-39 所 示 。 







地 理 位 置 


建设 和 运营 的 成 本 一 一 = 2 配套 的 设施 


人 力 资 源 条 件 


地 区 政策 





图 9-39 基础 设施 建设 





1) 地 理 位 置 。 应 该 选择 远离 地 震 、 台 风 、 洪 水 等 自然 灾害 频 发 地 区 ， 气 候 条 件 要 舒适 
稳定 ， 环 境 要 清洁 ， 交 通 也 要 方便 。 

2) 配套 的 设施 。 配 套 的 设施 主要 是 指 当 地 的 经 济 发 展 水 平 、 交 通 便利 条 件 、 人 力 资 源 
供应 等 方面 。 灾 难 备份 中 心 对 各 种 社会 资源 的 要 求 都 非常 高 。 

3) 人 力 资源 条 件 。 人 力 资源 条 件 主要 是 指 当地 的 科技 文化 水 平 、 人 力 资源 是 否 充足 等 
方面 。 

4) 地 区 政策 。 地 区 政策 主要 是 当地 政府 提供 的 政策 。 

5) 周边 环境 。 所 在 地 的 周边 环境 条 件 。 选 址 时 应 避 开 生产 或 存储 易 爆 物产 品 的 工厂 、 
仓库 等 ， 远 离 高 速 路 、 铁 路 等 ， 避 免 震动 对 于 主机 的 影响 。 

6) 建设 和 运营 的 成 本 。 成 本 是 一 个 需要 反复 权衡 的 因素 。 成 本 一 般 涉及 当地 的 土地 价 
格 、 房 屋 建 筑 价格 、 通 信 费 用、 用 电价 格 和 人 力 成 本 等 多 种 因素 。 

(2) 人 员 组 织 机 构建 设 

人 员 组 织 机 构建 设 主要 是 指 建立 或 设立 项 目 领 导 小 组 、 项 目 技术 委员 会 、 项 目 经 理 、 项 
目 管 理 组 、 项 目 实施 组 和 项 目 支持 组 。 

。 项 目 领导 小 组 。 

人 员 构 成 : 由 项 目 负责 人 和 客户 项 目 负责 人 组 成 。 

具体 职责 : 协调 项 目 参 与 方 与 客户 相关 部 门 的 关系 ， 协 调解 决 各 方 的 重大 争议 ， 协 调 项 
目 与 厂商 的 合作 关系 。 审 核 项 目的 总 体 方案 和 实施 计划 等 。 对 项 目的 进度 、 质 量 状况 和 风险 
等 进行 宏观 调控 ， 对 项 目的 各 个 方面 进行 管理 ， 协 调用 户 内 部 、 各 厂商 及 合作 伙伴 之 间 的 关 
系 。 制 定 计划 ， 明 确 分 工 责任 等 。 

。 项 目 技术 委员 会 。 

人 员 构 成 : 由 技术 专家 组 成 。 

具体 职责 : 技术 专家 主要 负责 项 目 总 体 技术 的 把 关 ， 以 及 解决 重大 技术 问题 。 

。 项 目 经 理 。 

人 员 构 成 : 项 目 管理 人 员 。 

具体 职责 : 负责 项 目的 组 织 、 管 理 和 协调 ; 制定 项 目 实施 方案 和 计划 ; 协调 项 目 成 员 与 
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用 户 人 员 之 间 的 工作 关系 ; 负责 监督 项 目的 具体 实施 ， 安 排 各 阶段 工作 任务 ; 负责 向 项 目 领 
导 小 组 汇报 项 目 进 展 情况 。 

。 项 目 管理 组 。 

人 员 构 成 : 由 项 目 质量 管理 人 员 组 成 。 

具体 职责 : 作为 项 目的 质量 保障 机 构 ， 负 责 制定 质量 标准 和 计划 等 ， 参 与 项 目的 实施 ， 
负责 监督 项 目的 实施 过 程 ， 并 在 发 现 问题 后 进行 处 理 和 改进 。 

。 项 目 实施 组 。 

人 员 构 成 : 由 项 目 实施 人 员 组 成 。 

具体 职责 : 负责 软 硬 件 设 备 的 安装 、 调 试 。 汇 报 项 目 各 阶段 的 进展 情况 和 存在 的 问题 
等 。 负 责 对 用 户 运营 维护 人 员 的 技术 培训 。 

。 项 目 支 持 组 。 

人 员 构 成 : 由 技术 专家 组 成 。 




















具体 职责 : 负责 系统 规划 和 项 目 实施 的 审核 工作 。 为 项 目 实施 组 提供 技术 支持 。 负 责 解 
答 用 户 的 专业 技术 问题 。 

(3) 运 维 管理 体系 建设 

数据 仓库 系统 运 维 服务 管理 对 象 包括 基础 设施 、 应 用 系统 、 用 户 、 运 维 部 门 及 供应 商 。 


具体 内 容 如 下 : 

e 基础 设施 

主要 包括 网 络 、 主 机 系统 、 存 储 和 备份 系统 、 安 全 系统 等 。 
。 应 用 系统 

主要 包括 办 公 系 统 、 门 户 网 站 等 应 用 系统 。 

。 用 户 

主要 包括 使 用 产品 或 服务 的 一 方 和 产品 或 服务 的 购买 者 。 
。 供应 商 

主要 包括 基础 设施 、 应 用 系统 和 IT 运 维 的 供应 商 。 

e 运 维 部 门 

主要 包括 参与 运 维 活动 的 相关 部 门 和 人 员 。 





9.3 商业 银行 数据 仓库 的 建设 规划 


9.3.1 商业 银行 数据 仓库 建设 概况 和 瓶 颁 
2000 年 以 后 ， 多 数 商业 银行 都 在 建设 数据 仓库 ， 经 过 前 期 的 数据 积累 ， 数 据 质 量 的 提 
升 ， 数 据 仓 库 建 设 成 功率 较 高 。 
商业 银行 数据 仓库 的 建设 一 般 都 采用 分 阶段 建设 的 策略 。 
第 一 阶段 ， 基 本 实现 对 数据 的 集中 处 理 ， 特 别 是 对 内 部 重要 报表 系统 提供 数据 支持 。 
ee 
杂 的 管理 分 析 类 应 
第 三 人 阶段 的 基础 上 ， 实施 数据 挖 气 分析、 商业 智能 等 应 用 。 
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对 于 商业 银行 来 说 ， 建 设 数据 仓库 是 基本 功 ， 缺 点 是 实施 的 周期 较 长 ， 统 一 标准 困难 ， 
见效 慢 ， 是 一 个 典型 的 高 投入 和 慢 回 报 的 建设 项 目 。 

但 是 随 着 时 间 的 流逝 ， 建 设 数据 仓库 或 者 不 建设 数据 仓库 给 商业 银行 的 发 展 带 来 了 不 同 
的 影响 。 例 如 ， 如 果 某 些 商业 银行 在 5 年 前 或 者 10 年 前 就 开始 重视 数据 仓库 的 建设 ， 比 那 
些 不 重视 数据 仓库 建设 的 商业 银行 发 展 态势 要 好 很 多 。 也 就 是 说 ， 后 期 投入 的 成 本 就 越 高 。 

一 些 商 业 银行 在 建设 数据 仓库 时 面临 很 多 的 困难 ， 例 如 很 多 银行 为 每 一 个 应 用 系统 建设 
数据 库 ， 当 多 个 应 用 系统 建设 完成 之 后 ， 增 加 了 数据 管理 的 难度 。 因 为 数据 标准 不 统一 ， 所 
以 整合 难以 实现 。 

举例 来 说 ， 客 户 使 用 银行 服务 的 渠道 很 多 ,除了 传统 的 营业 网 点 ， 还 包括 网 上 银行 、 手 机 
银行 等 渠道 ， 这 会 导致 同一 个 客户 可 能 会 拥有 多 个 账户 信息 ， 那 么 识别 唯一 客户 需要 大 量 的 数 
据 整合 和 集成 工作 。 如 果 不 能 对 客户 信息 进行 唯一 识别 ， 就 很 难 进 行商 业 智 能 分 析 。 

目前 商业 银行 数据 仓库 面临 很 多 瓶 陆 ， 包 括 业务 价值 、 系 统 性 能 、 数 据 质量 和 后 续 运 维 
等 ， 如 图 9-40 所 示 。 





业务 价值 





图 9-40 目前 商业 银行 数据 仓库 面临 的 瓶颈 








(1) 业务 价值 

对 于 大 部 分 的 商业 银行 来 说 ， 数 据 仓库 基本 上 停留 在 业务 报表 和 供 数 层面 上 ， 业 务 价值 
体现 得 不 够 充分 。 商 业 银 行 有 大 量 的 数据 ， 有 的 银行 也 做 了 很 多 的 数据 分 析 ， 但 是 没有 把 业 
务 分 析 结 果 转 换 为 业务 行动 。 国 外 很 多 银行 都 会 把 分 析 结 果 转 变 成 业务 规则 或 者 业务 事件 ， 
然后 和 银行 的 业务 系统 业 合 到 一 起 ， 最 终 形成 一 个 闭环 结构 。 国 内 商业 银行 的 高 端 分 析 应 用 
不 多 ， 也 就 是 没有 把 对 业务 的 分 析 结 果 转 换 为 业务 行动 。 

(2) 系统 性 能 

对 于 商业 银行 来 说 ， 如 果 数 据 仓库 系统 的 数据 链 路 过 长 ， 例 如 数据 从 核心 业务 系统 加 载 
下 来 ， 然 后 再 通过 交换 系统 、 缓 冲 区 ， 经 过 ETL 加 工 ， 最 后 到 应 用 系统 。 这 种 方式 必须 考 
虑 数据 的 混合 负载 ， 也 就 是 数据 加 载 、 数 据 加 工 和 前 端 访问 同时 进行 ， 可 以 进行 批量 加 载 和 
实时 加 载 。 这 种 工作 负载 是 混合 的 ， 需 要 重点 考虑 资源 的 分 配 问题 。 

(3) 数据 质量 

对 于 大 部 分 商业 银行 来 说 ， 基 本 上 都 是 先 有 数据 仓库 ， 然 后 才 进行 数据 标准 的 建设 ， 这 
样 会 导致 数据 标准 很 难 在 数据 仓库 中 落地 。 大 部 分 商业 银行 实行 了 数据 质量 检查 程序 ， 对 数 
据 仓库 的 上 游 、 中 游 和 下 游 进行 全 生命 周期 的 质量 管理 ,但 是 对 于 前 台 业 务 系统 ， 也 可 能 
数据 质量 问题 ， 所 以 需要 统一 起 来 。 
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(4) 后 续 运 维 

当 数 据 仓库 建 好 之 后 ， 每 天 都 在 加 载 数据 ， 模 型 也 在 不 断 扩充 ， 如 果 有 新 的 数据 源 加 进 
来 ， 模 型 就 需要 变化 ，ETL 程序 也 需要 修改 ， 这 样 维护 的 工作 量 非常 大 。 同 时 还 需要 考虑 数 
据 自 助 服务 ， 开 放 数 据 接口 ， 也 就 是 业务 人 员 通 过 接口 自助 服务 ， 临 时 取 数 。 但 是 一 般 来 
说 ， 这 种 灵活 查询 不 能 全 部 开放 ， 因 为 数据 仓库 的 数据 量 非常 巨大 ， 有 可 能 一 个 查询 会 影响 
整个 数据 仓库 系统 ， 对 于 开放 的 查询 只 能 开放 一 些 汇 总 数据 层 的 数据 。 而 关于 明细 的 基础 数 
据 层 、 交 易 层 的 数据 是 不 能 开放 的 。 


9.3.2 商业 银行 数据 仓库 建设 面临 的 问题 和 改进 建议 


我 们 从 4 个 维度 (架构 、 模 型 、 管 理 、 应 用 ) 说 明 商 业 银 行 的 数据 仓库 建设 存在 哪些 
问题 ， 如 图 9-41 所 示 。 


一 般 来 说 ， 很 多 商业 银行 的 数据 仓库 架构 
面临 的 较 大 问题 是 数据 链 路 过 长 ， 架 构 的 灵活 Ne 本 
度 不 够 ， 系 统 在 高 可 用 性 上 还 处 于 较 低 的 水 司 » 


平 ,模型 的 稳定 性 不 够 ,同时 语义 层 不 丰富 。 


在 管理 上， 多数 商业 银行 对 管理 一 个 越 来 越 庆 
大 的 数据 仓库 系统 经 验 不 足 ， 在 元 数据 管理 和 











数据 质量 管理 上 都 有 改进 的 空间 ， 同 时 在 数据 
仓库 的 基础 上 开发 的 部 门 越 来 越 多 ， 如 何 管理 
跨 部 门 之 间 的 使 用 已 经 成 为 了 一 大 难题 。 在 应 ”图 9-41 4 个 维度 (架构 、 模 型 、 管 理 、 应 用 ) 
用 上 ， 商 业 银 行 对 数据 仓库 的 建设 多 采用 传统 的 OLTP 应 用 的 开发 、 测 试 方法 ， 效 率 较 低 。 

下 面 针 对 这 4 个 方面 的 问题 ， 分 别提 出 改进 的 建议 。 

首先 ， 对 于 架构 上 的 问题 ， 可 以 缩短 信息 链 路 ， 或 部 署 沙 盒 ， 执 行 一些 具 有 高 可 用 性 特 
点 的 方案 。 

其 次 ， 对 于 模型 上 的 问题 ， 可 以 进行 相应 的 模型 优化 ， 同 时 要 求 数据 仓库 的 上 游 系统 提 
高 稳定 性 ， 完 善 数据 仓库 的 语义 层 。 

再 次 ， 对 于 管理 上 的 问题 ， 可 以 借鉴 同行 业 的 先进 经 验 或 者 海内 外 先进 经 验 ， 同 时 也 可 
以 升级 元 数据 管理 系统 和 数据 质量 管理 系统 。 为 了 保证 在 数据 仓库 的 基础 上 ， 各 个 部 门 之 间 
的 管理 和 协作 ， 应 该 制定 数据 仓库 开发 规范 ， 并 且 严 格 执行 ， 同 时 制定 部 门 接 入 数据 仓库 的 
准 入 制度 。 

最 后 ， 对 于 数据 仓库 应 用 上 的 问题 ， 应 该 对 现 有 的 开发 、 测 试 方法 进行 创新 ， 增 强 对 灵 
活 查 询 的 支持 ， 同 时 需要 敏捷 开发 。 
9.3.3 商业 银行 数据 仓库 建设 思路 及 系统 情况 

1， 商 业 银 行 建设 数据 仓库 时 遇 到 的 挑战 

商业 银行 建设 数据 仓库 时 遇 到 的 挑战 主要 包括 高 可 用 性 、 组 织 架构 、 数 据 质量 和 性 能 / 
数据 延迟 性 ， 如 图 9-42 所 示 。 

(1) 高 可 用 性 

在 单一 物理 环境 中 集中 了 数据 缓存 、0DS、 数 据 仓 库 和 数据 集 市 ， 这 样 会 严重 影响 系统 
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的 高 可 用 性 ， 同 时 会 引发 一 系列 关于 性 能 、 可 扩展 性 和 可 维 





护 性 等 问题 。 用 从 
因为 缺乏 对 负载 的 管理 或 者 是 相关 政策 实施 监管 不 到 位 ， ” 

所 以 造成 了 资源 的 相互 争夺 ， 使 得 系统 不 能 提供 很 好 的 服务 。 a 
(2) 数据 质量 


由 于 如 果 数据 仓库 中 存在 大 量 的 不 一 致 的 数据 和 宛 余 的 QQ 
数据 ， 则 对 于 数据 质量 的 维护 来 说 是 非常 被 动 的 ， 所 以 应 该 | 
保证 数据 仓库 中 的 数据 都 是 有 用 的 。 性 能 / 

(3) 组 织 架 构 2 

很 多 商业 银行 缺少 与 数据 治理 相关 的 人 员 角 色 和 岗位 ， 
不 能 保证 业务 部 门 和 开 部 门 的 目标 是 一 致 的 ， 导 致 数据 仓库 ”图 9_42 商业 银行 建设 数据 
的 建设 缺乏 长 远 的 、 与 商业 银行 的 业务 战略 一 致 的 规划 。 仓库 时 遇 到 的 挑战 

(4) 性 能 /数据 延迟 性 

对 于 很 多 商业 银行 的 数据 仓库 来 说 ， 查 询 的 并 发 度 是 一 个 很 大 的 挑战 ， 多 用 户 使 用 数据 
仓库 运行 的 报表 或 者 是 即席 查询 的 时 候 ， 系 统 很 难 进行 扩展 和 对 负载 进行 优先 级 的 处 理 。 

2， 商业 银行 数据 仓库 架构 问题 及 案例 分 析 

(1) 第 一 个 案例 

商业 银行 在 建设 数据 仓库 的 时 候 ， 可 能 会 存在 其 他 某 商 业 银行 的 数据 仓库 架构 问题 ， 下 
面 分 析 一 下 对 这 类 数据 仓库 有 哪些 可 以 改进 的 地 方 ， 如 图 9-43 所 示 。 

















数据 源 数据 集 市 





























现状 ， 

该 商业 银行 的 业务 系统 每 天 将 文件 放 入 到 数据 仓库 中 ， 如 今 的 数据 仓库 在 压缩 前 存放 着 
大 约 80TB 的 数据 ， 压 缩 后 有 45TB ， 日 增 量 大 概 有 300 ~ 400GB， 在 峰值 时 可 能 会 有 800 ~ 
900GB 的 数据 。 

需要 优化 的 地 方 : 

整体 的 数据 架构 需要 优化 ， 面 临 着 数据 如 何 迁 移 ， 缺 少 统一 的 数据 管控 体系 ， 缺 乏 大 数 
据 处 理 机 制 ， 数 据 模型 没有 统一 规划 等 很 多 问题 。 
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在 核心 银行 业务 系统 向 数据 仓库 传送 文件 的 过 程 中 缺少 文件 交换 平台 ， 文 件 被 直接 送 入 
到 数据 仓库 中 ， 缺 少数 据 缓 冲 区 。 因 为 业务 系统 与 数据 仓库 之 间 缺 少 缓冲 区 ， 这 意味 着 数据 
仓库 缺少 了 一 道 屏 障 。 

首先 ， 因 为 数据 仓库 存储 着 大 量 的 历史 数据 ， 同 时 为 多 个 应 用 提供 服务 ， 所 以 系统 
的 效率 可 能 是 个 瓶颈 ， 如 果 再 与 多 个 业务 系统 建立 连接 ， 会 大 大 降低 数据 仓库 系统 的 
高 效 性 。 

其 次 ,缓冲 区 相当 于 数据 进入 到 数据 仓库 系统 的 一 道 闸 门 ， 很 多 事情 可 以 在 缓冲 区 完 
成 。 例 如 ， 对 数据 质量 的 校 验 ， 对 “垃圾 ”数据 的 “清洗 ”， 目 的 是 保证 数据 的 一 致 性 和 正 
确 性 。 然 后 从 缓冲 区 中 将 数据 迁移 至 数据 仓库 ， 保 证 流 到 数据 仓库 的 数据 都 是 高 质量 的 
数据 。 

最 后 ， 数 据 仓库 面 对 的 是 数据 缓冲 区 这 唯一 的 数据 源 ， 把 该 缓冲 区 当 作 唯一 可 信 的 数据 
源 ， 只 需要 建立 一 个 连接 即 可 ， 会 大 大 提高 数据 仓库 系统 的 性 能 。 

同时 该 系统 缺乏 库 内 集 市 和 库 外 集 市 的 合理 规划 ， 根 据 性 能 的 要 求 ， 应 用 可 以 分 成 库 外 
数据 集 市 和 库 内 数据 集 市 。 划 分 的 原则 是 需要 考虑 性 能 问题 ， 如 果 数 据 访问 量 很 大 ， 计 算 复 
杂 ， 则 需要 用 库 外 数据 集 市 ; 如 果 访 问 量 小 ， 计 算 简单 ， 则 考虑 库 内 数据 集 市 。 

(2) 第 二 个 案例 

下 面 看 一 下 某 商 业 银行 的 数据 仓库 数据 架构 ， 如 图 9-44 所 示 。 

数据 准备 区 数据 仓库 
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据 仓库 


























图 9-44 某 商业 银行 的 数据 仓库 数据 架构 





现状 
从 主机 对 公 系 统 、 主 机 个 人 系统 和 开放 平台 ， 每 天 通过 文件 传输 平台 ， 到 ETL 服务 融 ， 
数据 通过 解压 、 压 缩 ， 每 天 传输 的 数据 量 是 430GB ， 先 放 和 人 临时 区 〈 该 临时 区 一 般 只 存储 
一 周 的 数据 ) 。 该 临时 区 的 数据 是 为 了 做 数据 加 工 准备 的 ， 是 贴 数据 源 的 。 从 临时 区 出 来 分 
了 两 条 路 径 ， 所 谓 的 数据 集成 平台 相当 于 ODS 系统 。 如 果 应 用 是 不 跨 系统 的 ， 同 时 要 求 数 
据 的 时 效 性 高 ， 则 该 应 用 从 数据 集成 平台 中 取 数 据 ; 如 果 该 应 用 要 求 跨 系 统 取 数 ， 但 是 要 求 
的 时 效 性 不 高 ， 则 该 应 用 从 企业 级 的 数据 仓库 中 取 数 据 。 
企业 级 的 数据 仓库 分 成 基础 数据 层 、 汇 总 数据 层 。 针 对 数据 仓库 的 应 用 也 可 以 分 成 库 外 
的 数据 集 市 和 库 内 的 数据 集 市 ， 原 则 是 考虑 性 能 的 问题 。 如 果 数 据 访问 量 很 大 ， 要 求 的 时 效 
性 高 ， 则 需要 考虑 库 外 的 数据 集 市 。 如 果 数 据 访问 量 小 ， 则 可 以 考虑 使 用 库 内 的 数据 集 市 ， 
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也 就 是 在 数据 仓库 内 做 视图 。 

需要 优化 的 地 方 

该 商业 银行 的 数据 仓库 逻辑 架构 存在 问题 ， 例 如 时 间 窗 口 过 长 ， 也 就 是 数据 的 链 路 太 
长 。 解 决 的 办 法 是 通过 主机 直接 连 到 数据 集成 平台 ， 可 以 通过 产品 实现 。 在 时 间 调 度 上 ， 如 
果 某 个 业务 的 数据 很 快 加 载 完 了 ， 就 可 以 先 提供 访问 ， 不 需要 等 所 有 的 业务 全 部 加 载 完 之 后 
再 提供 数据 访问 。 可 以 通过 ETL 将 业务 之 间 的 相互 关系 拆 开 ， 在 没有 相互 依赖 的 情况 下 ， 
某 个 业务 的 数据 加 载 完 之 后 就 可 以 提供 访问 了 。 

3. 对 商业 银行 数据 仓库 目标 数据 架构 的 建议 

对 于 数据 仓库 的 目标 数据 架构 ， 可 以 提供 以 下 建议 ， 如 图 9-45 所 示 。 























源 数据 层 数据 交换 平台 数据 服务 层 应 用 层 
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化 
数 
据 




















图 9-45 数据 仓库 的 目标 数据 架构 








1) 在 数据 源 层 和 数据 服务 层 之 间 建 立 一 个 数据 交换 平台 。 数 据 服务 层 内 部 的 数据 流动 
和 数据 交换 都 通过 数据 交换 平台 。ODS 相当 于 数据 的 集成 平台 ,存储 的 都 是 实时 性 的 数据 ， 
而 数据 仓库 存储 的 都 是 历史 数据 。 

2) 数据 仓库 可 以 分 成 数据 基础 区 、 数 据 汇 总 区 和 集 市 区 。 

3) 数据 沙盘 的 使 用 。 如 果 某 个 应 用 从 数据 源 层 通过 数据 交换 平台 到 ODS， 到 数据 仓库 
层 ， 再 到 数据 集 市 层 ， 可 能 数据 的 链 路 过 长 ， 从 而 影响 应 用 的 时 效 性 ， 这 样 就 可 以 建立 一 个 
数据 沙盘 ， 可 以 直接 从 ODS 取 数 ， 或 者 从 数据 仓库 、 数 据 集 市 中 取出 数据 ， 当 稳定 和 固化 
后 ， 再 把 应 用 挪 到 ODS 或 者 数据 仓库 、 数 据 集 市 中 。 

4) 所 有 的 数据 流动 都 有 统一 的 调度 工具 进行 调度 。 

5) 同时 建立 对 数据 的 分 布 和 流转 的 管控 ， 包 括 元 数据 管理 、 数 据 质量 管理 、 数 据 标准 
管理 和 数据 生命 周期 管理 等 内 容 。 

关于 商业 银行 数据 仓库 的 目标 数据 架构 ， 主 要 包括 源 数 据 层 、 数 据 交 换 平 台 、 数 据 服务 
、 应 用 层 。 源 数据 层 对 于 各 个 OLTP 生产 系统 ， 如 一 些 核心 业务 系统 等 ， 时 效 性 要 求 较 
， 一 般 只 存储 生产 数据 ， 不 存储 历史 数据 。 它 一 般 作 为 数据 仓库 的 主要 数据 来 源 。 源 数据 
层 还 可 能 包括 文件 系统 、Web 等 非 结构 化 数据 源 。 
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对 疯 


数据 服务 层 为 数据 仓库 所 在 层 ， 通 过 对 历史 细节 数据 的 存储 和 汇总 数据 的 加 工 ， 支 持 后 
续 的 应 用 。 数 据 服 务 层 结合 业务 的 需要 可 以 设计 成 库 内 集 市 或 者 库 外 集 市 。 

应 用 层 将 数据 服务 层 加 工 出 的 数据 ， 通 过 静态 报表 、 动 态 OLAP 等 处 理 方式 提供 给 
用 户 。 


9.3.4 商业 银行 数据 仓库 建设 启示 


对 于 大 多 数 商 业 银行 来 说 ， 数 据 仓库 的 建设 不 是 一 跤 而 就 的 ， 一 般 是 分 阶段 、 分 期 实施 
的 ， 然 后 逐步 建设 数据 仓库 的 模型 ， 最 后 对 应 用 形成 支持 。 在 数据 仓库 的 建设 过 程 中 ， 需 要 
业务 部 门 主导 及 深入 参与 ， 深 入 发 掘 和 分 析 业 务 管理 方面 的 需求 ， 并 且 建 立 相 应 的 数据 管控 
体系 。 同 时 需要 团队 培养 和 知识 积累 等 工作 。 

如 图 9-46 所 示 ， 首 先 启动 数据 仓库 的 建设 ， 由 业务 部 门 主导 及 深入 参与 ， 然 后 将 数据 
仓库 的 建设 和 数据 管控 的 工作 结合 起 来 ， 最 后 分 期 、 分 阶段 地 进行 建设 ,同时 注重 团队 
培养 。 














只 


步骤 4 








。 分 阶段 进行 建设 ， 注 重 团 队 培养 





步骤 3 





。 将 数据 仓库 建设 与 数据 管控 工作 结合 起 来 





1) 4 
5 步骤 2 


“局 动 数据 仓库 建设 


。 业 务 部 门 主导 及 深入 参与 

















图 9-46 ”商业 银行 数据 仓库 建设 启示 


1) 根据 银行 业务 运营 、 客 户 关 系 管理 、 资 产 负债 管理 和 决策 分 析 等 需求 ， 在 合适 的 阶 
段 启动 数据 仓库 项 目的 建设 。 

很 多 商业 银行 为 了 满足 多 方面 的 需求 ,例如 风险 管理 、 绩 效 管理 或 者 监管 合 规 等 多 
方面 的 要 求 ， 在 核心 业务 系统 数据 集中 和 建立 统一 数据 源 之 后 ， 启 动 企业 级 数据 仓库 的 
建设 。 

在 业务 数据 量 相对 较 小 的 时 候 启动 数据 仓库 项 目的 建设 ， 可 以 降低 数据 仓库 系统 建设 的 
难度 和 风险 ， 能 够 尽快 体现 出 数据 仓库 的 价值 。 

2) 数据 仓库 的 建设 需要 业务 部 门 主导 及 深入 参与 。 

对 于 商业 银行 来 说 ， 数 据 仓库 的 工作 需要 业务 部 门人 员 的 广泛 参与 ， 并 且 由 业务 部 门 牵 
头发 起 数据 仓库 的 建设 ， 深 入 挖掘 和 分 析 业 务 管理 方面 的 需求 ， 从 而 指导 数据 仓库 模型 的 设 
计 等 核心 工作 。 

数据 的 集中 过 程 也 需要 业务 部 门 的 参与 ， 包 括 完 成 数据 的 清洗 和 整合 工作 ， 在 此 基础 
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上 ， 深 入 挖掘 信息 ， 有 效 发 挥 数 据 仓库 的 价值 。 

3) 将 数据 仓库 建设 与 数据 管控 工作 结合 起 来 。 

对 于 商业 银行 来 说 ， 数 据 标准 为 数据 仓库 提供 统一 的 定义 ， 它 是 数据 仓库 的 重要 基础 ， 
如 果 先 进行 数据 仓库 的 建设 ,后 期 再 进行 数据 标准 的 建设 ,会 对 数据 仓库 的 建设 带 来 一 定 的 
负面 影响 。 数 据 仓库 的 建设 需要 与 数据 管控 结合 起 来 ， 这 样 会 有 效 提 升 数据 仓库 的 数据 质 
量 ， 从 而 保障 数据 的 可 信 度 。 

4) 分 阶段 进行 建设 ， 注 重 团队 培养 

商业 银行 的 数据 仓库 项 目 一 般 是 分 期 、 分 批 迄 代 进 行 的 ， 不 能 一 践 而 就 。 而 且 数 据 仓库 
项 目 复 杂 度 相对 较 高 ,需要 有 丰富 专业 知识 的 技术 人 员 和 业务 人 员 才 能 将 数据 仓库 项 目 建设 
好 ， 因 此 ， 需 要 商业 银行 重视 对 数据 仓库 方面 人 才 的 培养 ,包括 技术 开发 人 员 、 设 计 人 员 和 
运 维 人 员 的 培养 。 





9.4 电力 行业 数据 仓库 的 建设 规划 


9.4.1 电力 行业 数据 仓库 建设 难点 
电力 行业 数据 仓库 的 建设 存在 以 下 难点 〈 见 图 9-47) : 


缺乏 统一 的 数据 规划 

数据 质量 问题 

缺乏 数据 仓库 建设 在 试点 单位 的 验证 
缺乏 对 数据 仓库 建 模 的 具体 指导 意见 


数据 不 统一 、 不 完整 、 不 正确 
成 功 的 经 验 无 法 得 到 有 效 的 推广 














1) 在 电力 行业 里 ， 有 些 部 门 缺乏 统一 的 数据 规划 。 

2) 因为 缺少 标准 化 的 数据 模型 和 统一 的 编码 管理 ， 所 以 经 常 导 致 出 现 数据 质量 
问题 。 

3) 电力 行业 有 时 会 缺乏 数据 仓库 建设 在 试点 单位 的 验证 。 

4) 电力 行业 有 时 同样 缺乏 对 数据 仓库 建 模 的 具体 指导 意见 。 

5) 因为 以 上 的 原因 ， 电 力行 业 的 系统 建设 很 容易 形成 信息 孤岛 ， 导 致 数据 不 统一 、 不 
完整 、 不 正确 。 

6) 同样 也 会 导致 电力 行业 系统 建设 的 成 功 经 验 无 法 得 到 有 效 推广 。 
解决 数据 仓库 建设 难点 问题 的 方法 
解决 电力 行业 数据 仓库 建设 的 难点 问题 有 以 下 方法 : 

可 以 通过 试点 建设 积累 经 验 。 形 成 统一 的 数据 模型 标准 、 管 控 方 法 和 建设 流程 ， 再 大 面 
积 推 广 ， 如 图 9-48 所 示 。 
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图 9-48 解决 电力 行业 数据 仓库 建设 的 难点 问题 


9.4.2 ”电力 行业 数据 仓库 体系 架构 


对 数据 的 应 用 分 析 通 过 数据 仓库 和 数据 集 市 提供 数据 支持 ， 并 通过 前 端 展 示 层 ， 将 分 析 
的 结果 展现 给 最 终 用 户 。 电 力行 业 关于 数据 仓库 的 体系 架构 如 图 9-49 所 示 。 





企业 级 数据 仓库 


业务 数据 和 其 他 外 部 数据 


图 9-49 电力 行业 数据 仓库 体系 架构 








9.4.3 ”电力 行业 数据 仓库 能 力 蓝 图 


电力 行业 的 数据 仓库 应 该 具备 以 下 几 种 能 力 : 集中 整合 能 力 、 分 析 展 现 能 力 、 高 级 应 用 
能 力 、 数 据 移动 能 力 、 质 量 保障 能 力 和 信息 描述 能 力 ， 如 图 9-50 所 示 。 





集中 整合 能 力 -.@ ”信息 描述 能 力 
Pd 2 党 和 
1 J 
“@. Be -二 
分 析 展 现 能 力 “~ ~- 辣 --------- 会 -一 质量 保障 能 力 














高 级 应 用 能 力 站 所 移动 能 
图 9-50 电力 行业 数据 仓库 应 该 具备 的 几 种 能 
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(1) 集中 整合 能 力 
数据 按照 业务 主题 的 方式 进行 存储 ， 完 成 对 零散 数据 的 整合 工作 ， 形 成 “唯一 数据 ”。 
(2) 分 析 展 现 能 
通过 标准 化 的 报表 和 图 表 帮 助 管理 人 员 做 出 正确 分 析 和 决策 ， 针 对 具体 应 用 建立 相应 的 
集 市 , 并 且 提 供 高 效 的 数据 查询 和 服务 。 

(3) 高 级 应 用 能 

为 分 析 人 员 和 管理 人 员 提 供 多 维 分 析 的 能 力 ， 帮 助 用 户 从 多 个 维度 深入 分 析 和 需要 的 指 
标 ; 同时 还 需要 具备 数据 挖掘 的 能 力 ， 能 够 对 企业 的 状况 和 未 来 发 展 作出 完整 、 合 理 和 准确 
的 分 析 预 测 。 

(4) 数据 移动 能 

提供 数据 抽取 、 转 换 与 加 载 的 能 力 。 可 以 高 效 地 将 业务 分 析 需 要 的 各 类 数据 移 到 数据 仓 
库 中 。 

(5) 质量 保障 能 

数据 仓库 应 该 具备 完善 的 数据 质量 管理 机 制 ， 保 障 企业 内 部 数据 的 一 致 性 与 准确 性 ， 提 
升 数据 分 析 的 可 信和 度 。 

(6) 信息 描述 能 

应 该 具备 强大 的 元 数据 管理 功能 ， 以 实现 各 类 技术 术语 与 业务 术语 在 公司 内 部 的 统一 
定义 。 
9.4.4 数据 仓库 对 电力 业务 发 展 的 促进 作用 

数据 仓库 可 以 促进 电力 业务 的 发 展 ， 如 图 9-51 所 示 。 


电力 用 户 业务 人 员 决策 领导 


儿 议和 
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提高 绩效 分 析 的 能 


提高 电力 营销 管理 的 能 提高 决策 分 析 的 能 




































































图 9-51 数据 仓库 可 以 促进 电力 业务 的 发 展 


数据 仓库 的 建设 可 以 提高 电力 安全 运营 的 能 力 、 绩 效 分 析 的 能 力 、 电 力 营销 管理 的 能 力 和 
决策 分 析 的 能 力 。 具 体 表现 是 通过 对 电力 设备 的 运行 状况 、 检 修 情况 和 事故 的 及 时 掌握 ， 提 高 
电力 安全 运营 的 能 力 ， 通 过 对 电量 、 电 费 、 电 价 的 分 析 ， 提 高 对 电量 的 需求 预测 能 力 和 价格 制 
定 能 力 ， 这 样 可 以 提高 电力 营销 管理 的 能 力 。 通 过 完善 报表 管理 的 能 力 ， 为 分 析 人 员 提 供 全 面 
的 关键 业务 信息 ， 同 时 对 运行 状态 进行 分 析 和 监控 ， 可 以 提高 绩效 分 析 和 决策 分 析 的 能 
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9.4.5 数据 仓库 建设 策略 比较 


(1) 第 一 种 数据 仓库 建设 策略 

由 业务 部 门 建立 各 自 的 数据 集 市 ， 这 种 方式 会 造成 重复 的 ETL 开发 ， 导 致 缺少 企业 层 
面 的 统一 规划 和 协调 ， 造 成 资源 的 浪费 ， 同 时 因为 缺少 跨 业 务 系统 数据 的 支撑 ， 所 以 无 法 提 
供 全 面 的 分 析 能 力 ， 也 容易 出 现 不 一 致 的 情况 。 但 是 由 于 建设 方式 简单 ， 一 般 来 说 ， 设 计 、 
开发 的 周期 都 较 短 。 

(2) 第 二 种 数据 仓库 建设 策略 

业务 部 门 根据 自身 需求 ， 在 统一 的 数据 仓库 平台 上 建设 更 深层 次 的 数据 分 析 应 用 ， 
这 种 建设 方式 可 以 有 效 地 形成 企业 范围 的 统一 信息 视图 ， 可 重用 ETL 流程 ， 减 少 资源 的 
浪费 ， 通 过 更 丰富 的 企业 数据 支撑 ， 提 供 全 面 的 企业 级 的 数据 分 析 能 力 。 可 以 制定 统一 
的 数据 管理 机 制 ， 提 升 数据 的 质量 ,但 是 因为 设计 、 开 发 的 难度 较 大 ， 所 以 时 间 周 期 也 
相对 较 长 。 


9.4.6 电力 行业 数据 仓库 的 数据 架构 设计 
电力 行业 数据 仓库 的 数据 架构 设计 如 图 9-52 所 示 。 


总 部 的 业务 数据 一 一 2 ee 数据 集 市 
省 级 业务 数据 一 天 一 [ECE 总 廊下 ee 数据 集 市 

















地 市 业务 数据 dE 综合 数据 库 











图 9-52 电力 行业 数据 仓库 的 数据 架构 设计 














1. 具体 说 明 

1) 电力 公司 总 部 ODS 的 组 成 与 省 级 单位 的 ODS 相同， 主要 区 别 在 于 数据 源 的 不 同 ， 电 
力 公司 总 部 ODS 主要 的 数据 源 来 自 于 总 部 的 业务 系统 ， 而 省 级 单位 ODS 主要 数据 源 来 自 于 
省 级 单位 的 业务 系统 。 

2) 电力 公司 总 部 数据 仓库 的 数据 来 源 包 括 业 务 明细 和 汇总 的 数据 ， 省 级 电力 公司 数据 
仓库 的 数据 是 以 中 度 或 者 高 度 汇总 的 数据 进行 存放 。 

3) 电力 公司 总 部 的 数据 集 市 主要 针对 公司 整体 发 展 分 析 ， 跨 系统 和 跨 省 地 对 数据 进行 
全 面 挖掘。 
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4) 省 级 电力 公司 的 数据 仓库 主要 和 覆盖 多 个 主题 域 的 企业 信息 ， 这 些 信息 主 要 是 低级 别 
的 、 细 粒度 的 数据 ， 同 时 根据 分 析 需 求 建立 一 定 粒度 的 汇总 数据 。 它 们 主要 为 数据 集 市 提供 
整合 后 的 、 高 质量 的 数据 。 省 级 数据 仓库 和 总 部 的 数据 仓库 存在 数据 交换 的 功能 ， 同 时 将 一 
部 分 数据 下 发 到 地 市 级 中 。 

5) 省 级 电力 公司 的 数据 集 市 是 一 组 特定 的 、 针 对 某 个 主题 域 的 、 部 门 的 数据 集合 。 这 
些 数 据 需 要 针对 用 户 需 求 进行 快速 访问 ， 数 据 集 市 可 以 保障 数据 仓库 的 高 可 用 性 、 可 扩展 性 
和 高 性 能 。 

2. 数据 移动 说 明 

(1) ODS 缓冲 区 数据 抽取 到 数据 仓库 区 

数据 仓库 区 是 核心 的 数据 存储 区 域 ， 它 支持 大 部 分 的 数据 应 用 。 

数据 仓库 内 的 数据 一 般 按照 面向 主题 的 方式 进行 组 织 和 存放 。 数 据 模型 满足 第 三 范式 ， 
这 些 数 据 在 线 存 储 的 周期 一 般 较 长 ， 而 0DS 缓冲 区 中 的 数据 结构 和 业务 系统 相似 ， 它 起 到 
缓冲 的 作用 。 从 0DS 缓冲 区 ， 数 据 经 过 转换 、 映 射 、 清 洗 ， 最 后 加 载 到 数据 仓库 区 中 。 中 
间 的 过 程 包含 了 合并 、 匹 配 、 数 据 的 追加 (和 覆盖 、 更 新 ) 等 操作 ， 如 图 9-53 所 示 。 

ODS 缓冲 区 




















图 9-53 0DS 缓冲 区 数据 抽取 到 数据 仓库 区 


(2) 数据 仓库 区 数据 抽取 到 数据 集 市 区 

数据 集 市 是 针对 某 个 主题 域 、 部 门 的 数据 集合 。 这 些 数据 需要 被 快速 访问 。 数 据 集 市 的 
数据 模型 可 以 是 星 形 结构 和 雪花 形 结 构 。 而 数据 仓库 的 数据 模型 满足 第 三 范式 。 从 数据 仓库 
到 数据 集 市 的 数据 迁移 ， 应 该 重点 考虑 从 规范 化 建 模 到 多 维 建 模 的 映射 关系 ， 包 括 实体 表 和 
事实 表 、 维 表 之 间 的 映射 关系 以 及 转化 过 程 。 主 要 的 过 程 包 含 了 汇总 、 缓 慢 变 化 维 等 操作 ， 
如 图 9-54 所 示 。 











Xl 


数据 集 市 区 











图 9-54 数据 仓库 区 数据 抽取 到 数据 集 市 区 
(3) 总 部 数据 仓库 和 省 级 数据 仓库 之 间 的 数据 交换 
总 部 数据 仓库 的 数据 源 主 要 包含 两 部 分 的 内 容 : 一 部 分 是 总 部 的 业务 系统 数据 ， 男 外 一 
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部 分 是 省 级 电力 公司 数据 仓库 的 数据 。 省 级 电力 公司 定时 向 总 部 数据 仓库 上 传 数据 以 供 分 析 
使 用 ， 同 时 总 部 数据 仓库 也 会 定期 将 汇总 的 数据 下 发 到 省 级 电力 公司 ， 如 图 9-55 所 示 。 








9-55 ”总 部 数据 仓库 和 省 级 数据 仓库 之 间 的 数据 交换 


一 般 来 说 ， 总 部 的 数据 仓库 只 抽取 部 分 省 级 电力 公司 的 数据 ， 同 时 存储 跨 系 统 、 高 度 汇 
总 和 集成 的 数据 。 

(4) 省 级 数据 仓库 和 地 市 级 综合 数据 库 的 数据 交换 

省 级 数据 仓库 会 定期 将 相关 数据 加 载 到 地 市 级 综合 数据 库 ， 如 图 9-56 所 示 。 对 于 地 市 
综合 数据 库 来 说 ， 它 的 数据 主要 来 源 于 省 级 数据 仓库 下 发 的 数据 和 部 署 在 地 市 级 别 的 业务 系 
统 的 数据 。 地 市 级 综合 数据 库 也 可 以 看 作 地 市 级 的 数据 仓库 。 











9-56 ”省 级 数据 仓库 和 地 市 级 综合 数据 库 的 数据 交换 





小 结 


e 数据 仓库 在 比尔 恩 门 所 著 的 《如 何 构 建 数据 仓库 》 一 书 中 的 定义 :“ 数 据 仓库 是 一 
个 面向 主题 的 (Subject oriented ) 、 集 成 的 〈Integratel ) 、 相 对 稳定 的 (Non - Vola- 
tle) 、 反 映 历史 变化 的 〈Time - variant) 数据 集合 ， 主 要 用 于 支持 决策 分 析 ”。 

e 数据 仓库 是 一 个 过 程 ， 而 不 是 一 个 产品 。 数 据 仓库 的 整个 过 程 包括 很 多 产品 和 实施 
服务 。 








。 数据 仓库 是 实现 商业 智能 的 基础 平台 ， 没 有 数据 仓库 的 搭建 ， 商 业 智能 是 无 法 实 
现 的 。 
。 数据 仓库 系统 建设 应 该 考虑 以 下 问题 : 
首先 选择 数据 仓库 系统 的 成 功 案例 作为 重要 
学 习 行 业内 的 先进 经 验 。 
具备 专业 的 数据 仓库 实施 队伍 和 业务 领域 的 专家 。 
考虑 数据 仓库 是 否 满足 海量 数据 的 复杂 、 并 发 查询 。 
数据 仓库 应 该 满足 可 扩展 的 能 
数据 仓库 应 该 考虑 高 可 靠 性 ， 并 且 满 足 高 质量 的 要 求 。 
。 数据 仓库 系统 相 比 其 他 系统 有 下 面 几 种 优势 ; 
数据 仓库 系统 可 以 获取 生产 系统 综合 的 信息 ， 作 为 科学 决策 分 析 的 重要 依据 。 
数据 仓库 可 以 从 宏观 的 角度 理解 信息 ， 也 可 以 从 微观 的 角度 探查 信息 。 
通过 数据 仓库 系统 ， 可 以 建立 企业 各 个 部 门 之 间 的 联系 。 
。 传统 数据 仓库 所 带 来 的 困难 ， 使 企业 管理 层 无 法 获得 及 时 、 准 确 、 有 效 的 业务 信息 ， 
这 会 对 企业 的 运营 和 竞争 力 带 来 影响 ， 原 因 如 下 所 示 
缺乏 有 效 的 目标 市 场 定位 ， 难 以 推出 有 针对 性 的 产品 。 
不 能 够 根据 个 性 化 的 服务 需求 ， 制 定 出 对 应 的 营销 策略 。 
不 能 及 时 了 解 客户 的 需求 和 特征 ， 无 法 提高 客户 的 忠诚 度 。 
。 数据 仓库 的 技术 特性 : 
海量 数据 处 理 能 
高 可 用 性 。 
线性 的 扩展 能 
数据 压缩 能 力 。 
e。“ 制 定数 据 标准 ， 建 立 数据 管控 机 制 ， 以 数据 、 应 用 驱动 为 主 ” 是 数据 仓库 基本 的 建 
设 方法 论 。 
。 数据 仓库 架构 设计 遵循 原则 : 
可 重用 性 。 
高 性 能 。 
可 扩展 性 。 
可 管理 性 。 
高 可 用 性 。 
。 数据 仓库 有 以 下 几 个 特征 : 
数据 仓库 整合 系统 的 全 局 信息 ， 包 括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 。 
数据 仓库 中 的 数据 通常 包含 历史 信息 ， 记 录 了 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信 
息 ， 通 过 这 些 信息 ， 可 以 对 企业 的 发 展 历程 和 未 来 趋势 做 出 分 析 和 预测 。 
数据 仓库 的 数据 来 源 可 以 为 结构 化 的 基础 数据 ， 非 结构 化 数据 结构 化 的 数据 ， 也 可 以 是 
产品 加 工 后 的 产品 数据 ， 或 者 是 主 数据 等 。 
数据 仓库 中 的 库 内 集 市 是 根据 应 用 需求 形成 的 数据 集合 ， 它 支撑 了 各 种 专业 化 的 应 用 。 
。 关于 灾难 备份 建设 的 方法 论 ， 主 要 分 成 以 下 几 个 阶段 : 分 析 阶 段 、 架 构 设 计 阶 段 、 技 
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术 方案 选择 阶段 、 实 施 阶段 、 维 护 阶段 。 

。 大 数据 是 指 无 法 在 一 定时 间 内 ， 用 传统 型 的 数据 库 软件 对 其 内 容 进行 抓 取 、 管 理 和 处 
理 的 数据 集合 。 大 数据 用 于 在 成 本 可 承受 的 条 件 下 ， 通 过 快速 采集 、 发 现 和 分 析 ， 从 
大 量 的 、 多 类 别 的 数据 中 提取 价值 。 大 数据 是 一 系列 技术 的 集合 ， 汇 集 了 如 Hadoop/ 
Mapreduce 、 一 体 机 、NoSQL， 数 据 分 析 与 挖掘 、 商 业 智能 、 数 据 仓库 等 。 

。 商业 银行 数据 仓库 的 建设 一 般 都 采用 分 阶段 建设 的 策略 : 第 一 阶段 ， 基 本 实现 对 数据 
的 集中 处 理 ， 特 别 是 对 内 部 重要 报表 系统 提供 数据 支持 。 第 二 阶段 ， 进 一 步 实施 诸如 
资产 负债 管理 、 客 户 关 系 管理 或 者 某 些 灵 活 报表 查询 等 较为 复杂 的 管理 分 析 类 应 用 。 
第 三 阶段 就 是 在 第 二 阶段 的 基础 上 ， 实 施 数据 挖掘 分 析 、 商 业 智能 等 应 用 。 

。 对 于 大 多 数 商 业 银行 来 说 ， 数 据 仓库 的 建设 不 是 一 蹊 而 就 的 ， 一 般 是 通过 分 阶段 、 分 
期 实施 的 ， 然 后 逐步 建设 数据 仓库 的 模型 ， 最 后 对 应 用 形成 支持 。 在 数据 仓库 的 建设 
过 程 中 ， 需 要 业务 部 门 主导 及 深入 参与 ， 深 入 发 掘 和 分 析 业 务 管理 分 析 方 面 的 需求 ， 
并 且 建 立 相 应 的 数据 管控 。 同 时 需要 团队 的 培养 和 知识 的 积累 等 工作 。 

。 对 于 数据 仓库 的 目标 数据 架构 ， 可 以 提供 以 下 建议 : 

在 源 数据 层 和 数据 服务 层 之 间 建 立 一 个 数据 交换 平台 ,包括 数据 服务 层 内 部 的 数据 流动 
































都 通过 数据 交换 平台 ,ODS 相当 于 数据 的 集成 平台 ,存储 的 都 是 实时 性 的 数据 ,数据 仓库 
存储 的 都 是 历史 数据 。 











数据 仓库 可 以 分 成 基础 区 、 汇 总 区 和 和 集 市 。 
对 于 数据 沙盘 的 使 用 ， 如 果菜 个 应 用 从 源 数据 层 通过 数据 交换 平台 到 0DS， 到 数据 仓 


库 层 ， 再 到 数据 集 市 层 ， 可 能 数据 的 链 路 过 长 ， 影 响应 用 的 时 效 性 ， 这 样 可 以 建 一 个 数据 沙 


盘 ， 


数据 可 以 直接 从 ODS 取 数 ， 或 者 从 数据 仓库 、 数 据 集 市 中 取出 数据 ， 当 稳定 和 固化 后 ， 


再 把 应 用 挪 到 ODS 或 者 数据 仓库 、 数 据 集 市 中 。 数 据 沙盘 也 可 以 称 为 数据 试验 区 。 





对 于 大 数据 来 说 ， 可 能 本 和 映 会 有 应 用 ， 或 者 和 结构 化 数据 结合 起 来 一 起 应 用 。 

所 有 的 数据 流动 都 有 统一 的 调度 工具 进行 调度 ， 同 时 建立 对 数据 的 分 布 和 流转 的 数据 管 

包括 元 数据 管理 、 数 据 质量 管理 、 数 据 标准 管理 、 数 据 生 命 周 期 管理 等 内 容 。 

。 解决 电力 行业 数据 仓库 建设 的 难点 问题 有 以 下 方法 : 可 以 通过 试点 建设 积累 经 验 ， 形 
成 统一 的 数据 模型 标准 、 管 控 方 法 和 流程 ， 再 大 面积 推广 。 

。 数据 仓库 的 建设 可 以 提高 电力 安全 运营 的 能 力 、 绩 效 分 析 的 能 力 、 电 力 营销 管理 的 能 
力 和 决策 分 析 的 能 力 。 具 体 表 现 是 通过 对 电力 设备 的 运行 状况 、 检 和 修 情况 和 事故 的 及 
时 掌握 ， 提 高 电力 安全 运营 的 能 力 ， 通 过 对 电量 、 电 费 、 电 价 的 分 析 ， 提 高 对 电量 的 
需求 预测 能 力 和 价格 制定 能 力 ， 这 样 可 以 提高 电力 营销 管理 的 能 

。 电力 行业 数据 仓库 模型 的 建立 过 程 : 首先 建设 企业 级 的 概念 数据 模型 ， 然 后 在 此 基础 
上 建设 企业 级 逻辑 数据 模型 ， 最 后 建设 电力 物理 数据 模型 。 
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第 10 章 商业 智能 一 ODS 数据 架构 和 案例 


本 章 目 标 
通过 前 几 章 的 学 习 ， 我 们 了 解 了 数据 仓库 的 定义 、 数 据 仓 库 产 生 的 背景 、 数 据 仓库 的 主 
要 特征 、 数 据 仓 库 面临 的 挑战 和 技术 特性 。 同 时 我 们 也 了 解 了 数据 仓库 的 建设 方法 、 数 据 仓 
库 的 架构 规划 ， 包 括 大 数据 环境 下 的 数据 仓库 建设 、 数 据 仓库 模型 的 设计 、 关 于 数据 仓库 系 
统 的 灾难 备份 规划 ， 最 后 我 们 学 习 了 关于 商业 银行 的 数据 仓库 建设 和 电力 行业 数据 仓库 的 建 
设 等 相关 内 容 。 

学 习 本 章 后 ， 读 者 将 掌握 : 

e ODS 的 定义 

e ODS 的 系统 目标 

e ODS 的 业务 目标 

e 某 商 业 银 行 ODS 系统 的 数据 架构 规划 

e 某 商 业 银行 ODS 系统 案例 

e ODS 导 辑 模型 设计 

e ODS 物理 模型 设计 




















10.1 ODS 概述 


10.1.1 ODS 的 定义 


关于 ODS 的 概念 ， 在 前 几 章 已 经 进行 了 介绍 ， 即 ODS 是 面向 主题 的 、 集 成 的 、 可 变 
的 、 并 且 反 映 当 前 细节 性 的 数据 集合 ， 用 于 支持 即时 性 的 、 操 作 性 的 全 局 信息 的 需求 ， 它 是 
数据 仓库 的 过 渡 阶段 。 关 于 ODS 有 很 多 的 解释 和 定义 ， 最 根本 的 就 是 ODS 需要 集成 多 个 系 
统 的 数据 ， 同 时 又 要 给 一 个 或 者 多 个 系统 使 用 。 通 常数 据 有 较 频 繁 的 更 新 以 及 保存 即时 性 的 
信息 。 

对 于 企业 来 说 ，ODS 系统 可 以 解决 很 多 的 问题 。 例 如 ，0ODS 拥有 最 少 的 历史 数据 ， 而 
尽 可 能 接近 实时 地 监控 企业 目前 的 运转 情况 ， 提 供 企业 内 部 或 者 外 部 的 信息 以 支持 决策 分 
析 ， 提 供 实时 的 全 局 信息 以 便于 制定 未 来 的 发 展 战略 。 

ODS 的 建设 流程 一 般 包 括 4 个 步 又: 

1) 对 数据 进行 统一 整合 ， 构 建 全 企业 的 数据 标准 化 体系 。 

2) 实现 对 应 用 系统 的 统一 供 数 和 数据 分 发 。 

3) 实现 数据 架构 和 技术 架构 的 统一 ， 不 断 完善 ODS 系统 的 建设 。 

4) 将 0DS 系统 的 数据 转 和 人 到 数据 仓库 中 ， 以 便 对 历史 数据 进行 分 析 和 挖掘 。 

通过 ODS 系统 的 建设 ， 可 以 有 效 地 缩短 应 用 系统 的 实施 路 径 ， 降 低 重 复 开发 率 ， 同 时 
可 以 提高 对 数据 需求 的 快速 响应 ， 为 更 深层 次 的 挖掘 分 析 葛 定 基础 。 
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10.1.2 ODS 的 系统 目标 和 业务 目标 


(1) ODS 的 系统 目标 

ODS 系统 作为 企业 运营 数据 共享 的 平台 ， 应 该 集成 各 个 业务 系统 的 数据 ， 支 持 跨 系统 
的 数据 应 用 ， 有 效 地 提升 数据 的 质量 。 因 此 ，ODS 的 系统 目标 包括 以 下 几 个 ; 

e 数据 共享 
通过 ODS 系统 为 各 个 业务 系统 提供 共享 数据 ， 降 低 接口 的 复杂 度 ， 提 高 系统 接口 的 
效率 。 

。 数据 质量 的 校 验 和 管控 
通过 ODS 系统 提高 数据 质量 的 校 验 能 力 和 管控 能 力 ， 包 括 提升 数据 的 完整 性 、 唯 一 性 、 
一 致 性 和 及 时 性 。 对 于 校 验 能 力 ， 主 要 包括 唯一 性 校 验 、 一 致 性 校 验 和 主 外 键 校 验 等 内 容 。 
例如 ， 在 某 ODS 系统 中 ， 客 户主 题 中 的 客户 信息 不 允许 重复 ， 客 户 身 份 证 号 码 字段 可 以 作 
为 客户 唯一 识别 的 标识 。 为 了 保证 客户 信息 的 正确 性 ， 需 要 在 ODS 系统 中 增加 对 客户 基本 
言 息 表 的 唯一 性 校 验 。 

e 数据 整合 的 能 
通过 ODS 系统 的 建设 ， 提 升 数 据 整合 的 能 力 ， 包 括 统一 的 数据 模型 、 数 据 标准 和 数据 
视图 等 。 

e 实时 或 者 准 实时 地 提供 数据 应 用 
通过 ODS 系统 的 建设 ， 可 以 为 用 户 提供 固定 报表 应 用 、 查 询 类 应 用 、 动 态 决 策 分 析 应 
用 、 风 险 监 控 类 的 应 用 等 内 容 。 

(2) ODS 的 业务 目标 

ODS 系统 是 商业 智能 架构 的 重要 组 成 部 分 ， 它 可 以 实现 蜂 系 统 的 数据 整合 。0DS 系统 
的 业务 目标 主要 包括 : 

e 为 客户 提供 统一 的 视图 和 展示 。 

e 为 客户 提供 生产 经 营 类 的 报表 展示 。 

e 为 客户 提供 关键 绩效 类 的 报表 展示 。 

e 为 客户 提供 经 营 风 险 类 的 报表 展示 。 

e 为 客户 提供 决策 分 析 类 的 报表 展示 。 



























































10.2 关于 ODS 系统 的 数据 架构 


10.2.1 某 商 业 银行 ODS 系统 的 数据 架构 规划 


关于 某 商业 银行 ODS 系统 数据 架构 规划 的 设计 思路 ， 主 要 包括 以 数据 源 作为 驱动 、 统 
一 管理 和 规范 、 完 善 共 性 加 工 层 等 几 个 方面 的 内 容 。 

。 以 数据 源 作为 驱动 

对 数据 源 系统 进行 分 析 ， 按 照 模型 贴近 源 系统 的 原则 ， 确 定 源 系 统 的 增 量 层 和 标准 增 





。 统一 管理 和 规范 
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我 们 可 以 基于 银行 的 数据 统一 标准 ， 在 源 系统 分 析 基 础 上 ， 对 标准 增 量 层 的 数据 进行 整 
合 ， 然 后 按照 业务 主题 重新 组 织 ， 形 成 基础 数据 层 。 

e 完善 共性 加 工 层 

根据 业务 需求 ， 整 理 共 性 加 工 层 ， 以 满足 公共 加 工 的 要 求 。 

某 商 业 银 行 ODS 系统 的 数据 架构 规划 设计 如 下 : 

ODS 系统 的 架构 设计 可 以 分 成 几 个 层次 : 源 数 据 增 量 层 、 标 准 增 量 层 、 基 础 数据 层 、 
共性 加 工 层 。 每 个 应 用 系统 都 独立 设计 各 自 的 数据 集 市 。 

其 中 源 数 据 增 量 层 和 标准 增 量 层 与 源 系统 结构 类 似 ， 对 数据 进行 标准 化 处 理 ， 以 避免 源 
系统 的 变化 对 基础 数据 层 的 影响 。 基 础 数据 层 按照 业务 主题 进行 整合 ， 在 设计 过 程 中 ， 考 虑 
业务 发 展 的 需求 ， 为 分 析 类 应 用 提供 标准 化 的 基础 数据 。 共 性 加 工 层 根 据 业 务 特 点 ， 结 合 实 
际 应 用 ， 对 一 些 指标 进行 统计 分 析 ， 为 集 市 提供 统计 数据 。 一 般 来 说 ， 共 性 加 工 层 只 进行 简 
单 的 汇总 计算 ， 随 着 应 用 系统 的 不 断 扩充 ， 可 以 整理 出 相关 的 共性 指标 。 

最 后 在 基础 数据 层 和 共性 加 工 层 的 基础 上 为 分 行 和 总 行 的 应 用 系统 提供 数据 ， 或 者 为 每 
个 应 用 系统 建设 独立 的 数据 集 市 。 

基于 以 上 思路 ， 关 于 某 商 业 银行 ODS 系统 的 数据 架构 规划 如 图 10-1 所 示 。 


基础 数据 层 数据 分 发 层 数据 集 市 层 
性 加 工 层 

































































图 10-1 关于 某 商业 银行 ODS 系统 的 数据 架构 规划 








对 各 个 层次 的 描述 主要 包括 源 数 据 增 量 层 、 标 准 增 量 层 、 基 础 数据 层 和 共性 加 工 层 。 

。 源 数 据 增 量 层 

源 数据 增 量 层 存 放 各 个 业务 系统 的 增 量 文件 ， 可 以 由 ETL 工具 进行 增 量 抽取 。 源 数据 
增 量 层 可 以 将 数据 保存 一 周 左右 。 

。 标准 增 量 层 

标准 增 量 层 是 介 于 源 数 据 增 量 层 和 基础 数据 层 之 间 的 横 型 ， 它 的 数据 结构 是 贴 源 的 ， 是 
经 过 清洗 和 标准 化 后 的 数据 。 

。 基础 数据 层 

基础 数据 层 是 ODS 系统 的 核心 ， 对 业务 数据 进行 轻 度 的 整合 ， 该 模型 贴近 源 系 统 ， 同 
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时 保证 数据 的 标准 化 。 该 层 需要 保留 必要 的 历史 数据 ， 可 能 是 几 个 月 ， 也 可 能 是 若干 年 。 

e 共性 加 工 层 

共性 加 工 层 是 ODS 系统 的 重要 组 成 部 分 之 一 ， 目 的 是 提高 数据 查询 的 效率 ， 对 查询 请 
求 频率 较 高 的 数据 做 进一步 的 整合 。 方 便 对 共性 基础 指标 进行 统计 分 析 ， 该 层 只 包含 基本 的 
汇总 数据 。 共 性 加 工 层 将 共性 指标 提炼 出 来 ， 减 少 系统 的 重复 处 理 。 


10. 2.2 某 商 业 银 行 ODS 系统 案例 


下 面 介绍 某 商 业 银 行 ODS 系统 建设 的 案例 。 在 ODS 系统 未 建 之 前 ， 如 图 10-2 所 示 , 这 
种 复杂 的 网 状 结构 会 带 来 一 系列 的 问题 ， 可 能 会 造成 信息 孤岛 ， 数 据 的 可 共享 性 降低 ， 缺 乏 
完整 的 数据 解决 方案 。 
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数据 集 市 1 数据 集 市 2 数据 集 市 3 


应 用 2 应 用 3 
了 《 




















综合 业务 系统 言 用 卡 业务 信贷 业务 网 银 业 务 
10-2 ODS 系统 未 建 之 前 
按照 此 种 思路 ，ODS 系统 未 建 之 前 ， 系 统 的 复杂 度 是 M xN， 如 图 10-3 所 示 。 
应 用 1 应 用 2 应 用 3 


€ € 所 





























数据 源 1 数据 源 2 数据 源 3 
系统 复杂 度 : MxN 


10-3 ”ODS 系统 未 建 之 前 的 系统 复杂 度 
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ODS 建成 之 后 ， 作 为 一 个 中 间 的 层次 ， 它 包含 全 局 一 致 的 、 细 节 的 、 当 前 的 数据 。 经 
过 ODS 系统 的 初步 集成 和 标准 化 加 工 ， 对 具有 共性 的 数据 加 工 需 求 进行 抽象 ， 以 供 后 续 加 
工 使 用 。 数 据 仓库 的 数据 来 自 于 ODS 系统 ，ODS 系统 的 数据 经 过 转换 后 ， 根 据 需 要 可 以 移 
人 数据 仓库 中 ， 如 图 10-4 所 示 。 























数据 集 市 1 数据 集 市 2 数据 集 市 3 




















信贷 业务 网 银 业 务 





图 10-4 ”ODS 系统 建成 之 后 


ODS 建成 之 后 ， 系 统 的 复杂 度 是 M+ N， 如 图 10-5 所 示 。 
应 用 1 应 用 2 应 用 3 


& 























系统 复杂 度 : MHN 
图 10-5 ”ODS 建成 之 后 的 系统 复杂 度 
综 上 所 述 ，ODS 系统 在 业务 系统 数据 源 和 各 个 应 用 之 间 形 成 一 个 缓冲 带 ， 它 可 以 对 各 
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个 业务 数据 进行 标准 化 、 规 范 化 ， 进 行 数据 质量 管理 ， 最 后 实现 全 企业 的 统一 数据 视图 。 同 
时 支撑 跨 系 统 的 数据 应 用 ， 提 供 数据 共享 ， 满 足 银行 在 业务 经 营 和 精细 化 管理 方面 对 高 质量 
和 高 时 效 的 需求 。 





10.3 ODS 模型 设计 


关于 ODS 的 模型 设计 ， 主 要 包括 数据 调研 、 确 定数 据 范围 和 主题 定义 。 数 据 调 研 是 对 
现 有 业务 系统 的 逻辑 模型 和 物理 模型 进行 了 解 。 确 定数 据 范围 是 在 业务 系统 调研 的 基础 上 进 
行 的 ， 目 的 是 确保 应 用 所 需 的 数据 都 已 经 从 业务 系统 中 抽取 出 来 了 。 主 题 的 定义 是 以 业务 系 
统 为 基础 ， 参 考 业 务 系统 的 企业 模型 来 定义 数据 主题 ， 主 要 以 ER 模型 为 主 。 


10. 3.1 ODS 逻辑 模型 设计 


关于 0DS 逮 辑 模型 的 设计 过 程 ， 主 要 包括 : 逻辑 结构 定义 、 存 储 周期 定义 和 存储 粒度 
定义 











逻辑 结构 定义 主要 包括 : 定义 各 个 实体 的 概念 特性 、 实 体 和 实体 之 间 的 关系 等。 
存储 周期 定义 主要 是 指数 据 在 ODS 中 的 存储 期 限 。 例 如 ， 有 些 数据 在 ODS 中 保存 一 自 
时 间 后 再 加 载 到 数据 仓库 即 删除 ， 有 一 些 数据 可 能 会 在 ODS 中 长 期 保存 。 

存储 粒度 定义 是 指数 据 在 ODS 中 存储 的 细节 程度 。 粒 度 层次 的 划分 决定 了 ODS 中 的 数 
据 量 和 查询 的 灵活 度 。 

关于 0DS 逻辑 模型 的 设计 步 又 ， 如 图 10-6 所 示 ， 主 要 包括 : 定义 数据 范围 、 主 题 定 
义 、 形 成 逻辑 模型 说 明 书 。 








图 10-6 ODS 逻辑 模型 的 设计 步骤 


(1) 定义 数据 范围 

确定 数据 范围 是 在 对 业务 系统 调研 的 基础 上 进行 的 ， 确 保 应 用 所 需 的 数据 都 已 经 从 业务 
系统 中 抽取 出 来 了 。 一 般 来 说 ,设计 人 员 和 需要 综合 业务 系统 的 企业 模型 ， 得 到 全 企业 范围 内 
的 数据 视图 ， 通 过 抽象 划分 逻辑 模型 的 数据 主题 范围 。 

(2) 主题 定义 

通过 数据 主题 的 分 解 和 重 构 ， 进 行 主 题 的 定义 ， 包 括 定 义 实 体 、 实 体 之 间 的 关系 ， 对 应 
的 存储 粒度 、 存 储 期 限 等 。 在 ODS 中 ,通过 对 实体 的 归并 ， 保 证 实体 之 间 的 一 致 性 和 唯 
一 性 。 

(3) 形成 逻辑 模型 说 明 书 

需要 在 ODS 逻辑 模型 说 明 书 中 对 数据 范围 、 主 题 定义 、 实 体 和 实体 之 间 的 关系 进行 详 
细 地 描述 。 在 0DS 逻辑 结构 说 明 书 中 需要 对 数据 范围 、 主 题 定义 、 实 体 和 相关 属性 的 定义 
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进行 精确 、 详 尽 地 描述 。 同 时 需要 详细 说 明 数 据 的 存储 周期 、 存 储 方式 等 。ODS 逻辑 模型 
需要 解决 数据 的 粒度 层次 划分 ， 关 于 粒度 层次 的 划分 直接 决定 了 ODS 的 数据 量 和 查询 的 灵 
活性 。 一 般 来 说 ，ODS 中 的 数据 是 从 生产 业务 系统 中 取出 的 细节 性 数据 ， 数 据 粒 度 与 业务 
源 系统 保持 一 致 。 


10. 3.2 ”ODS 物理 模型 设计 


ODS 物理 模型 设计 是 对 数据 的 索引 策略 、 数 据 存放 位 置 和 数据 的 存储 分 配 进行 定义 。 
物理 模型 设计 人 员 需 要 了 解数 据 的 使 用 频率 、 数 据 规 模 以 及 响应 时 间 要 求 等 。 同 时 理解 外 部 
存储 设备 的 特性 ， 如 分 块 原则 、 设 备 的 0 特性 等 内 容 。 

其 中 数据 的 索引 策略 是 为 了 提高 数据 的 存 取 效率 。 特 别 是 在 数据 仓库 中 ， 设 计 人 员 应 该 
考虑 为 数据 存储 建立 专用 或 者 多 样 的 索引 ， 因 为 数据 仓库 中 的 数据 是 不 经 常 更 新 的 ， 数 据 存 
储 相 对 稳定 。 

数据 存放 位 置 主要 考虑 将 不 同类 别 的 数据 存放 到 不 同 的 存储 设备 中 。 例 如 ， 一 些 重要 程 
度 高 、 对 响应 时 间 要 求 较 高 的 数据 应 该 存放 在 高 速 存储 设备 上 ， 如 硬盘 ; 对 一 些 存 取 频 率 较 
低 和 响应 时 间 要 求 不 高 的 数据 应 该 放 在 低速 存储 设备 上 ， 如 磁带 和 磁盘 中 。 

数据 的 存储 分 配 主要 是 确定 块 的 大 小 、 缓 冲 区 的 大 小 和 个 数 等 内 容 。 通 过 对 存储 分 配 的 
参数 指定 ， 实 现 数据 的 物理 优化 。 









































小 结 


e 对 于 企业 来 说 ，ODS 系统 可 以 解决 很 多 问题 。 例 如 ，0DS 拥有 较 少 的 历史 数据 ， 而 尽 
可 能 接近 实时 地 监控 企业 目前 的 运转 情况 ， 提 供 企业 内 部 或 者 外 部 的 信息 以 支持 决策 
分 析 ， 提 供 实时 的 全 局 信息 以 便于 制定 未 来 的 发 展 战略 。 

e 0DS 系统 作为 企业 运营 数据 共享 的 平台 ， 应 该 集成 各 个 业务 系统 的 数据 ， 支 持 跨 系统 
的 数据 应 用 ， 有 效 地 提升 数据 的 质量 。 

e ODS 系统 是 商业 智能 架构 的 重要 组 成 部 分 之 一 ， 它 可 以 实现 跨 系统 的 数据 整合 。 

e ODS 系统 的 架构 设计 可 以 分 成 几 个 层次 : 源 数 据 增 量 层 、 标 准 增 量 层 、 基 础 数据 层 、 
共性 加 工 层 。 每 个 应 用 系统 都 独立 设计 各 自 的 数据 集 市 。 

e 源 数据 增 量 层 存 放 各 个 业务 系统 的 增 量 文件 ， 可 以 由 ETL 工具 进行 增 量 抽取 。 源 数据 
增 量 层 可 以 将 数据 保存 一 周 左右 。 

e 标准 增 量 层 是 介 于 源 数据 增 量 层 和 基础 数据 层 之 间 的 模型 ， 它 的 数据 结构 是 贴 源 的 ， 

是 经 过 清洗 和 标准 化 后 的 数据 。 

e 基础 数据 层 是 ODS 系统 的 核心 ， 对 业务 数据 进行 轻 度 的 整合 ， 该 模型 贴近 源 系统 ， 同 时 保 
证 数据 的 标准 化 。 该 层 需 要 保留 必要 的 历史 数据 ， 可 能 是 几 个 月 ， 也 可 能 是 若干 年 。 

e 共性 加 工 层 是 ODS 系统 的 重要 组 成 部 分 之 一 ， 目 的 是 提高 数据 查询 的 效率 ， 对 查询 
请 求 频率 较 高 的 数据 做 进一步 的 整合 ， 方 便 对 共性 基础 指标 进行 统计 分 析 ， 该 层 只 包 
含 基 本 的 汇总 数据 。 共 性 加 工 层 将 共性 指标 提炼 出 来 ， 减 少 系统 的 重复 处 理 。 

e 关于 0DS 多 辑 模型 的 设计 过 程 ， 主 要 包括 逻辑 结构 定义 、 存 储 周 期 定义 和 存储 粒度 
定义 。 

284 

































































逻辑 结构 定义 主要 包括 定义 各 个 实体 的 概念 特性 、 实 体 和 实体 之 间 的 关系 等 。 

存储 周期 定义 主要 是 指数 据 在 ODS 中 的 存储 期 限 。 例 如 ， 有 些 数据 在 ODS 中 保存 一 段 
时 间 后 再 加 载 到 数据 仓库 即 删 除 ， 有 一 些 数 据 可 能 会 在 ODS 中 长 期 保存 。 

存储 粒度 定义 是 指数 据 在 ODS 中 存储 的 细节 程度 。 关 于 粒度 层次 的 划分 决定 了 0DS 中 
的 数据 量 和 查询 的 灵活 度 。 

。 ODS 物理 模型 设计 是 对 数据 的 索引 策略 、 数 据 存放 位 置 和 数据 的 存储 分 配 进行 定义 。 

物理 模型 设计 人 员 需 要 了 解数 据 的 使 用 频率 、 数 据 规模 以 及 响应 时 间 要 求 等 。 同 时 理 

解 外 部 存储 设备 的 特性 ， 如 分 块 原则 、 设 备 的 VO 特性 等 内 容 。 
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第 11 蔓 ”商业 智能 一 


本 章 目 标 

通过 前 几 音 的 学 习 ， 我 们 已 经 掌握 了 商业 智能 的 几 个 基本 组 成 部 分 ， 包 括 数据 仓库 的 定 
义 、 数 据 仓库 产生 的 背景 、 数 据 仓库 的 主要 特征 、 数 据 仓库 面临 的 挑战 和 技术 特性 ，ODS 
的 定义 、0DS 的 系统 目标 和 业务 目标 、 关 于 某 商 业 银 行 ODS 系统 的 数据 架构 规划 、 某 商业 
银行 ODS 系统 案例 、0DS 逻辑 模型 设计 和 ODS 物理 模型 设计 等 内 容 。 下 面 我 们 主要 讲解 关 
于 数据 集 市 的 架构 和 案例 。 

通过 本 章 的 学 习 ， 读 者 将 掌握 : 

。 数据 集 市 的 概念 

。 关于 数据 集 市 的 误区 

。 关于 数据 集 市 的 主要 应 用 

。 数据 集 市 概念 模型 设计 

。 数据 集 市 逻辑 模型 设计 

。 数据 集 市 物理 模型 设计 

。 数据 集 市 的 架构 模式 

。 某 商 业 银 行 的 数据 集 市 架构 解决 方案 


注 


据 集 市 染 构 和 案例 














et 














11.1 数据 集 市 概述 


11.1.1 数据 集 市 概念 


数据 集 市 的 概念 在 前 面 已 经 做 了 定义 。 简 单 地 说 ， 数 据 集 市 是 一 种 较 小 的 和 集中 的 数据 
仓库 。 业 务 系统 的 数据 经 过 数据 仓库 流入 到 不 同 的 部 门 ， 而 这 些 部 门 级 的 数据 仓库 就 称 为 数 
据 集 市 。 一 般 来 说 ， 每 个 部 门 都 有 各 上 自 的 数据 集 市 ， 它 们 之 间 可 能 相互 关联 ,但 本 质 上 是 相 
互 独立 的 。 数 据 仓库 主要 面向 整个 企业 ， 而 数据 集 市 则 面向 各 个 部 门 。 数 据 仓库 的 粒度 相对 
较 小 ， 而 数据 集 市 的 粒度 一 般 是 概括 汇总 级 的 。 


11.1.2 关于 数据 集 市 的 误区 


我 们 分 析 一 下 关于 数据 集 市 的 理解 有 哪些 误区 ? 如 图 11-11 所 示 。 
(1) 数据 量 大 小 是 区 分 数据 集 市 和 数据 仓库 的 主要 特征 
数据 量 的 大 小 不 能 作为 区 分 数据 集 市 和 数据 仓库 的 主要 特征 ， 因 为 有 可 能 某 个 生产 广 商 
数据 仓库 的 数据 量 远 远 小 于 电信 行业 某 个 部 门 数据 集 市 的 数据 量 。 
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(2) 数据 集 市 是 容易 建立 起 来 的 

数据 集 市 在 很 大 程度 上 比 数据 仓库 的 复杂 性 略 低 一 些 ， 因 为 它 只 针对 某 一 特定 主题 。 但 
是 因为 数据 集 市 可 能 会 从 多 个 数据 源 中 提取 数据 ， 围 绕 数 据 的 复杂 问题 会 很 高 ， 因 此 数据 集 
市 不 会 很 容易 建立 起 来 。 





数据 量 大 小 是 区 分 数 
据 集 市 和 数据 仓库 的 
主要 特征 


数据 集 市 是 容易 数据 集 市 比较 容易 
建立 起 来 的 


~ 





‘hy 
图 11-1 关于 数据 集 市 的 理解 有 哪些 误区 
(3) 数据 集 市 比较 容易 升级 成 数据 仓库 
数据 集 市 主要 针对 特定 的 业务 需求 ， 采 用 特殊 的 模型 。 当 扩展 和 追加 数据 的 时 候 ， 
会 增加 信息 孤岛 ， 不 能 以 企业 全 局 的 视角 分 析 数 据 ， 因 此 数据 集 市 升级 到 数据 仓库 会 
很 困难 。 
11.1.3 关于 数据 集 市 的 主要 应 用 


关于 数据 集 市 的 主要 应 用 ， 包 括 监控 预警 、 客 户 群 分 析 、 即 席 查 询 和 自助 报表 。 

(1) 监控 预警 

数据 集 市 的 监控 预警 功能 主要 实现 指标 类 、 业 务 类 相关 数据 的 监控 预警 。 

(2) 客户 群 分 析 

数据 集 市 的 客户 群 分 析 是 针对 业务 部 门 和 客服 部 门 的 营销 需求 ， 对 客户 信息 进行 详细 分 
析 ， 为 营销 提供 支撑 。 可 以 针对 区 域 (如 省 、 市 、 区 、 县 、 家 庭 、 学 校 等 ) 、 客 户 属性 (如 
职业 、 消 费 习 惯 等 ) 进行 客户 群 的 细 分 。 

(3) 即席 查询 

数据 集 市 的 即席 查询 是 基于 数据 集 市 业务 逻辑 视图 ， 面 向 业务 人 员 的 查询 工具 ， 提 供 各 
种 查询 生成 器 的 功能 。 

(4) 自助 报表 

数据 集 市 的 自助 报表 一 般 是 面向 企业 管理 人 员 和 业务 人 员 使 用 的 ， 可 以 提供 各 种 报表 预 
览 和 发 布 功能 。 可 以 提高 业务 部 门 、 管 理 部 门 报表 需求 的 响应 速度 。 


11.2 数据 集 市 模型 设计 





























数据 集 市 建 模 时 通常 采用 “ 自 顶 向 下 ”的 方法 ， 建 模 过 程 可 以 分 成 以 下 三 个 阶段 : 数 
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据 集 市 概念 模型 设计 、 数 据 集 市 逻辑 模型 设计 和 数据 集 市 物理 模型 设计 。 

1. 数据 集 市 概念 模型 设计 

数据 集 市 概念 模型 设计 是 通过 需求 分 析 ， 明 确 需求 涵盖 的 业务 范围 ， 然 后 对 需求 范围 内 
的 业务 和 业务 之 间 的 关系 进行 概括 性 的 描述 ， 通 过 对 业务 对 象 的 归 类 ， 划 分 主题 域 。 概 念 模 
型 的 设计 是 为 逻辑 模型 设计 做 准备 的 。 

2. 数据 集 市 逻辑 模型 设计 

数据 集 市 逻辑 模型 设计 是 通过 对 概念 模型 的 各 个 主题 域 进 行 细 化 ， 同 时 根据 业务 定义 、 
分 类 和 规则 ， 定 义 实体 并 描述 实体 之 间 的 关系 ， 在 实体 关系 的 基础 上 明确 各 个 实体 的 属性 。 
实体 间 的 对 应 、 约 束 关 系 则 来 自 于 各 业务 过 程 中 的 规则 ， 最 后 定义 相应 的 事实 表 和 维度 表 ， 
组 成 星 形 逻 辑 模型 。 

3. 数据 集 市 物理 模型 设计 

数据 集 市 物理 模型 的 设计 依赖 于 逻辑 模型 的 完成 ， 目 的 是 提高 数据 分 析 的 效率 ， 针 对 有 具 
体 的 分 析 需 求 采 取 相 应 的 优化 策略 。 数 据 集 市 的 主题 分 为 两 种 类 型 : 综合 类 主题 和 专业 类 主 
题 。 综 合 类 主题 是 从 整个 企业 的 关键 指标 进行 综合 分 析 。 专 业 类 主题 是 从 业务 部 门 关心 的 指 
标 进 行 分 析 。 

数据 集 市 的 数据 分 为 两 种 : 一 种 是 基于 数据 仓库 的 细节 数据 或 者 汇总 数据 进行 统计 分 
析 ， 男 一 种 是 基于 数据 挖 据 进行 分 析 。 











11.3 数据 集 市 的 架构 模式 





数据 集 市 的 架构 模式 主要 分 成 库 内 数据 集 市 和 库 外 数据 集 市 。 

库 内 数据 集 市 是 部 署 在 企业 级 数据 仓库 之 内 的 ， 在 数据 仓库 的 汇总 数据 层 和 基础 数据 层 
基础 上 构建 面向 特定 主题 的 数据 集 市 。 库 内 数据 集 市 可 以 共享 汇总 数据 层 和 基础 数据 层 的 数 
据 ， 如 图 11-2 所 示 。 

库 外 数据 集 市 是 根据 应 用 需求 而 形成 的 数据 集合 。 库 外 集 市 一 般 是 在 数据 仓库 之 外 进行 
部 署 的 ， 它 具有 专门 的 软 硬 件 设 备 。 库 外 数据 集 市 的 来 源 是 数据 仓库 基础 数据 层 和 汇总 数据 
层 的 数据 ， 如 图 11-3 所 示 。 























库 外 数据 集 市 
分 析 类 产品 应 用 
数据 仓库 
数据 仓库 

汇 

总 家 管理 分 析 类 应 用 

数 据 

据 层 

图 11-2 库 内 数据 集 市 图 11-3 库 外 数据 集 市 
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11.4 某 商 业 银行 的 数据 集 市 架构 解决 方案 


例如 ， 某 商业 银行 关于 数据 仓库 建设 已 经 初 具 规模 ， 随 着 历史 数据 的 累积 ， 数 据 仓库 可 
以 满足 各 类 分 析 需 求 ， 按 照 该 银行 的 长 期 规划 ， 数 据 集 市 的 建设 逐渐 提 上 日 程 。 它 可 以 降低 
成 本 ， 提 升 效 率 ， 提 高 整体 架构 的 安全 性 。 

按照 该 银行 的 数据 架构 ， 数 据 集 市 的 建设 采用 “ 自 顶 向 下 ”的 建设 思路 ， 即 首先 建设 
全 行 统一 的 数据 仓库 。 数 据 仓 库 的 数据 来 源 于 各 类 业务 系统 及 外 部 数据 ， 对 全 行 数据 进行 整 
合 ， 做 到 数据 的 完整 、 统 一 ;再 从 业务 层面 ， 基 于 数据 仓库 建设 各 类 应 用 的 数据 集 市 ， 数 据 
集 市 的 数据 来 源 于 数据 仓库 ， 避 免 重复 的 数据 整合 和 转换 工作 ， 满 足 各 类 分 析 应 用 的 需求 ， 
如 图 11-4 所 示 。 
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图 11-4 某 商 业 银行 的 数据 集 市 架构 解决 方案 


小 结 


。 数据 集 市 是 一 种 较 小 的 和 集中 的 数据 仓库 。 业 务 系统 的 数据 经 过 数据 仓库 流入 到 不 同 
的 部 门 ， 而 这 些 部 门 级 的 数据 仓库 就 称 为 数据 集 市 。 一 般 来 说 ， 每 个 部 门 都 有 各 自 的 
数据 集 市 ， 它 们 之 间 可 能 相互 关联 ,但 本 质 上 是 相互 独立 的 。 

。 关于 数据 集 市 的 主要 应 用 ， 包 括 监控 预警 、 客 户 群 分 析 、 即 席 查询 和 自助 报表 。 

。 数据 集 市 建 模 时 通常 采用 “ 自 顶 向 下 ”的 方法 ， 建 模 过 程 可 以 分 成 以 下 三 个 阶 
段 : 数据 集 市 概念 模型 设计 、 数 据 集 市 逻辑 模型 设计 和 数据 集 市 物理 模型 


设计 。 
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。 数据 集 市 概念 模型 设计 是 通过 需求 分 析 ， 明 确 需 求 涵盖 的 业务 范围 ， 然 后 对 需求 范围 
内 的 业务 和 业务 之 间 的 关系 进行 概括 性 的 描述 ， 通 过 对 业务 对 象 的 归 类 ， 划 分 主题 
域 。 概 念 模型 的 设计 是 为 逻辑 模型 设计 做 准备 的 。 

。 数据 集 市 逻辑 模型 设计 是 通过 对 概念 模型 的 各 个 主题 域 进行 细 化 ， 同 时 根据 业务 定 
义 、 分 类 和 规则 ， 定 义 实 体 并 描述 实体 之 间 的 关系 ， 在 实体 关系 的 基础 上 明确 各 个 实 
体 的 属性 。 

。 数据 集 市 物理 模型 的 设计 依赖 于 逻辑 模型 的 完成 ， 目 的 是 提高 数据 分 析 的 效率 ， 针 对 
具体 的 分 析 需 求 采取 相应 的 优化 策略 。 数 据 集 市 的 主题 分 为 两 种 类 型 : 综合 类 主题 和 
专业 类 主题 。 综 合 类 主题 是 从 整个 企业 的 关键 指标 进行 综合 分 析 。 专 业 类 主题 是 从 业 
务 部 门 关心 的 指标 进行 分 析 。 























第 12 音 ”金融 行业 数据 积 构 案例 和 商业 智能 


本 章 目标 

通过 前 几 章 的 学 习 ， 我 们 已 经 对 企业 总 体 规 划 、 数 据 架构 和 商业 智能 有 一 个 整体 性 的 认 
识 。 本 章 将 重点 介绍 金融 行业 数据 架构 的 相关 案例 和 商业 智能 内 容 。 

学 习 本 章 后 ， 读 者 将 掌握 : 

。 金融 行业 背景 概述 

。 金融 行业 的 数据 架构 

。 传统 金融 行业 某 系统 的 数据 架构 案例 

。 互联 网 金融 行业 的 数据 架构 案例 

。 金融 行业 商业 智能 的 背景 和 作用 

。 金融 行业 如 何 实 施 商 业 智能 

。 金融 行业 的 业务 流程 和 运营 模式 优化 

















12.1 金融 行业 背景 


首先 我 们 了 解 一 下 什么 是 金融 。 

我 们 可 以 简单 地 对 金融 进行 定义 : 金融 就 是 在 我 们 的 经 济 生活 中 ， 通 过 银行 、 证 券 机 构 
等 中 介 ， 从 市 场 主体 中 募集 资金 ， 然 后 在 借贷 给 其 他 市 场 主体 的 活动 ， 可 以 把 金融 看 做 融 
资 、 投 资 和 资金 募集 等 三 种 经 济 活动 ， 如 图 12-1 所 示 。 





银行 证 券 
| 








图 12-1 金融 定义 


对 于 商业 银行 来 说 ， 它 有 大 量 的 客户 群 ， 可 以 吸收 社会 公众 存款 ,资金 实 力 非常 雄厚 ， 
抗 风 险 的 能 力 比较 强 。 同 时 银行 有 大 量 的 客户 信用 数据 ， 包 括 客 户 信 用 卡 消费 信息 、 贷 款 信 
息 、 还 款 信息 和 信用 信息 等 。 

随 着 互联 网 技术 的 进步 ， 商 业 银 行 通过 互联 网 融资 会 更 有 利 ， 因 为 商业 银行 本 身 具有 良 
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好 的 信用 基础 和 声誉 ， 各 种 贷款 、 股 票 和 债券 都 可 以 通过 互联 网 进行 交易 。 同 时 也 可 以 利用 
互联 网 技术 解决 信息 不 对 称 的 问题 。 对 于 银行 来 说 ， 借 贷 业 务 仍 然 是 商业 银行 的 核心 业务 ， 
它 的 净利 息 收 入 占 到 70% 左右 。 

目前 一 些 互联 网 企业 也 在 发 展 金融 业 ， 因 为 它 拥有 数量 庞大 的 客户 群 ， 通 过 数据 挖掘 ， 
分 析 客 户 的 真实 需求 ， 然 后 提供 所 需 的 产品 和 服务 。 对 于 互联 网 金融 来 说 ， 它 没有 改变 商业 
的 实质 ， 而 是 仅仅 改变 了 销售 与 服务 的 渠道 ， 改 善 了 客户 的 体验 。 例 如 ， 贷 款 、 股 票 和 各 种 
债券 可 以 通过 互联 网 金融 进行 交易 ， 它 与 传统 的 通过 银行 作为 中 介 的 交易 方式 不 同 ， 它 既 保 
证 了 资金 按照 供需 双方 直接 交易 ， 同 时 又 不 同 于 资本 市 场 直接 融资 的 男 外 一 种 融资 模式 。 

我 们 可 以 把 互联 网 和 移动 互联 网 统一 称 为 互联 网 金融 ， 如 图 12-2 所 示 。 它 可 以 包括 传 
统 的 商业 银行 、 证 券 公 司 等 金融 机 构 的 互联 网 化 ， 通 过 互联 网 为 客户 提供 各 种 金融 服务 。 但 
是 随 之 带 来 一 些 问 题 ,例如 ， 互 联网 企业 发 展 金融 业 是 否 符合 金融 行业 监管 要 求 ， 是 否 能 
承受 各 种 风险 ， 这 是 互联 网 企业 目前 面临 的 挑战 和 困难 。 

对 于 一 些 电 商 网 站 来 说 ， 它 可 以 根据 商品 的 点 击 频率 以 及 商品 与 商品 之 间 的 关系 ， 计 算 
出 用 户 感 兴趣 的 商品 的 概率 ， 然 后 在 网 页 上 进行 直接 推送 ， 这 种 方式 大 大 增加 了 购买 成 功 的 
概率 ， 也 降低 了 广告 宣传 的 成 本 。 

在 一 些 网 银 界面 上 ， 只 有 一 些 固定 的 营销 广告 ， 还 没有 真正 地 实现 以 客户 为 中 心 的 交叉 
营销 。 实 际 上 ， 我 们 完全 可 以 根据 客户 大 量 的 信息 ， 如 个 人 的 资产 情况 和 理财 习惯 ， 向 客户 
推送 个 性 化 的 产品 和 服务 。 一 些 电 商 企业 其 实 也 看 准 了 这 个 方向 ， 它 们 利用 互联 网 平台 ， 依 
靠 用 户 的 交易 数据 和 信用 数据 ， 开 展 互联 网 上 的 融资 业务 。 在 这 个 过 程 中 ， 借 贷 双 方 都 避 开 
了 银行 等 金融 中 介 ， 这 就 是 所 谓 的 金融 脱 媒 现 象 ， 如 图 12-3 所 示 。 
























































图 12-2 互联 网 金融 
随 着 金融 脱 媒 现 象 越 来 越 凸 显 ， 对 商业 银行 也 提出 了 很 高 的 要 求 ， 虽 然 商 业 银行 积累 了 























大 量 的 客户 信息 、 交 易 信息 ,但 是 在 数据 挖 握 方面 还 有 很 大 的 提升 空间 。 

例如 ， 在 一 些 个 人 网 银 页 面 ， 没 有 统一 的 界面 可 以 一 目 了 然 地 看 到 自己 的 负债 情况 ， 必 
须 进 入 到 不 同 的 账户 中 查询 余额 。 表 面 上 是 页 面 的 问题 ， 实 质 上 是 目前 商业 银行 还 是 “以 
账户 为 中 心 ” ， 没 有 真正 做 到 “以 客户 为 中 心 ”， 最 理想 的 状态 是 让 客户 能 够 看 到 自身 整个 
资产 负债 的 情况 ， 然 后 通过 一 步 步 钻 取 ， 看 到 每 个 账户 的 全 貌 和 明细 。 所 以 说 ,银行 的 服务 
质量 还 有 很 大 的 提升 空间 。 

根据 以 上 的 金融 行业 背景 ， 对 商业 银行 提出 了 更 高 的 要 求 。 面 对 这 些 要 求 ， 商 业 银行 应 
该 具备 哪些 能 力 呢 ?如 图 12-4 所 示 ， 应 该 具备 对 客户 的 洞察 力 、 精 准 营 销 和 跨 渠 道 客户 管 
理 的 能 力 。 


292 








| 精准 营销 





商业 银行 应 该 具备 的 能 


CT 


12-4 ”商业 银行 应 该 具备 的 能 力 


(1) 对 客户 的 洞察 力 

因为 缺乏 全 企业 统一 客户 视图 以 及 有 效 利用 这 个 视图 的 能 力 ， 很 多 银行 一 直 都 难以 了 解 
客户 需求 。 商 业 银 行 可 以 利用 数据 仓库 ， 通 过 数据 分 析 和 建 模 来 了 解 银行 客户 需求 。 

(2) 精准 营销 

商业 银行 可 以 通过 数据 仓库 来 分 析 客 户 ， 通 过 闭环 营销 ， 帮 助 银行 利用 每 一 次 的 互动 来 
增强 对 客户 的 了 解 。 

(3) 跨 渠 道 客户 管理 

客户 通过 各 种 渠道 与 商业 银行 以 及 其 他 金融 机 构 进行 互动 。 对 于 金融 机 构 来 说 ， 需 要 考 
虑 如 何 使 用 多 渠道 战略 吸引 客户 ， 并 且 通 过 跨 渠道 战略 去 管理 与 客户 的 互动 ， 从 而 丰富 数据 
来 源 ， 获 得 更 加 深入 的 分 析 数 据 。 

那么 为 了 满足 这 些 能 力 要 求 ， 商 业 银行 应 该 具备 什么 样 的 数据 架构 呢 ? 下 面 就 来 理解 一 
下 金融 行业 的 数据 架构 。 




















12.2 金融 行业 的 数据 架构 


金融 行业 的 数据 是 推动 商业 银行 等 金融 机 构 变革 的 主要 推动 力 。 目 前 来 说 ， 商 业 银行 之 
间 的 竞争 越 来 越 激烈 。 商 业 银 行 的 发 展 需要 良性 的 差异 化 竞争 ， 数 据 是 竞争 的 基础 条 件 。 很 
多 金融 机 构 通过 数据 分 析 指 导 日 常 运营 ， 为 客户 提供 更 好 的 服务 和 产品 ， 同 时 降低 商业 银行 
运营 的 风险 ,获取 欧 争 的 优势 。 

金融 机 构 每 天 都 在 产生 大 量 的 数据 ， 包 括 各 种 文本 、 视 频 、 图 片 、 日 志 、 音 频 和 地 理 位 
置 等 信息 ,但 是 这 些 数据 之 间 还 存在 着 很 多 问题 ， 如 数据 存在 分 割 、 标 准 不 统一 、 难 以 共享 
等 问题 。 

上 述 这些 问 题 导 致 出 现 了 大 量 的 信息 孤岛 ， 从 而 难以 利用 这 些 宝贵 的 数据 做 出 有 效 的 决 
策 分 析 。 很 早 以 前 ， 商 业 银 行 的 数据 架构 都 是 以 统计 报表 为 主 。 在 信息 化 的 建设 过 程 中 ,各 
个 系统 之 间 的 数据 定义 、 数 据 采 集 流 程 缺少 体系 建设 ， 信 息 之 间 难 以 共享 。 同 一 数据 可 能 在 
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多 个 系统 中 重复 录入 和 存储 。 优 秀 的 数据 架构 在 金融 行业 中 显得 尤为 重要 。 
在 所 有 行业 中 ， 银 行 的 数据 管理 其 实 是 比较 困难 的 。 
1) 商业 银行 的 IT 系统 建设 较 早 ， 随 着 时 间 的 流逝 ， 系 统 变 得 越 来 越 复杂 。 
2) 商业 银行 对 于 数据 的 准确 性 要 求 是 极 高 的 ， 但 
很 多 银行 的 数据 并 没有 统一 的 标准 ， 不 同系 统 之 间 的 数 
据 还 存在 不 一 致 和 不 完整 的 现象 。 
3) 关于 商业 银行 的 数据 架构 、 数 据 治 理 和 管控 是 
非常 重要 的 。 
金融 行业 的 数据 架构 一 般 包括 以 下 几 个 部 分 : 数据 
采集 层 、 产 品 加 工 层 和 对 外 服务 层 ， 如 图 12-5 所 示 。 
从 数据 源 开始 ， 经 过 加 载 、 集 中 、 整 合 ， 以 及 对 外 















































服务 这 几 个 过 程 ， 可 以 将 整个 数据 架构 横向 划分 成 : 源 十 
数据 区 、 基 础 区 、 产 品 加 工区 和 产品 服务 区 ， 如 图 12-6 
所 示 。 各 个 区 域 都 相对 独立 。 图 12-5 金融 行业 的 数据 架构 
浙 数 据 区 基础 区 产品 加 工区 产品 服务 区 
EPE 和 本 | 国 灸 十 器 
加 载 通道 E> ,| = 
信贷 信息 加 载 库 A | yk 
| 加 载 通道 ， p> 
缴费 信息 加 载 库 | < 日 加 工 库 | | 
w= 人 N 
加 载 通道 || | i 
a 庄 | ， 要 ， 数据 集 市 
1 | 




















图 12-6 数据 架构 的 横向 划分 





。 源 数 据 区 

在 源 数 据 区 中 ， 可 以 进行 并 行 处 理 ， 设 计 多 个 加 载 通道 ， 提 高 加 载 的 并 行 度 和 加 载 
效率 。 在 数据 加 载 入 库 之 后 ， 再 进行 逻辑 校 验 ,包括 对 错误 数据 的 反馈 ， 然 后 使 用 快 
速 迁移 技术 ， 将 数据 迁移 到 基础 区 中 ， 最 后 将 加 载 库 的 数据 清空 ， 以 备 下 一 阶段 的 数 


据 加 载 。 

。 基础 区 

基础 区 中 存储 的 是 数据 采集 的 信息 ， 以 满足 对 新 增 数据 的 采集 、 加 载 和 整合 ， 最 后 为 产 
品 加 工 做 准备 。 


294 


e 产品 加 工区 

产品 加 工区 主要 面向 应 用 ， 包 括 对 数据 类 、 解 决 方案 类 和 服务 类 等 产品 的 加 工 。 产 品 加 
工区 可 以 分 成 数据 集中 区 和 加 工 单 元 区 。 

(1) 数据 集中 区 

产品 加 工区 的 数据 都 来 源 于 基础 区， 一 般 来 说 ， 产 品 加 工 的 时 间 较 长 ， 为 保证 产品 加 工 
和 数据 加 载 都 有 相对 独立 的 时 间 窗 口 ， 在 产品 加 工区 划 出 一 个 数据 集中 区 ， 作 为 缓冲 层 ， 如 
图 12-7 所 示 。 








区 
tH 
3 
党 
HH 
Xl 


-基础 区 























图 12-7 数据 集中 区 


根据 产品 加 工 的 需求 ， 定 期 从 基础 区 中 抽取 产品 加 工 需 要 的 数据 ， 在 产品 加 工 之 前 建立 
一 个 数据 集中 区 ， 目 的 是 降低 基础 区 和 产品 加 工区 之 间 的 耘 合 性 ， 同 时 根据 加 工 频率 的 不 
同 ， 将 数据 集中 区 分 成 日 迁移 和 月 迁移 的 数据 。 

对 于 日 加 工 的 数据 ， 每 天 都 需要 根据 数据 加 















































载 量 ， 完 成 当日 的 加 载 任 务 ， 同 时 为 了 避免 不 同 下 
产品 之 间 加 工 过 程 的 相互 影响 ， 可 以 为 每 类 日 加 > 
工 建立 相对 独立 的 数据 库 实例 。 数据 集中 区 所 上 Us 
对 于 月 加 工 的 数据 ， 每 月 迁移 一 次 数据 , 为、 慷 | 
了 保证 不 同 种 类 的 产品 数据 加 工 的 一 致 性 。 | -者 醒 
在 采用 批量 数据 迁移 的 同时 ， 考 虑 在 数据 迁 | es 
移 的 时 候 暂 停 数 据 加 工 服务 ， 尽 量 避免 数据 迁移 
和 加 工 同时 进行 。 Ws 
(2) 加 工 单元 区 。 | 迫 有 多 
在 加 工 单元 区 中 ， 提 供 各 类 产品 加 工 的 原子 pe 
数据 ， 如 图 12-8 所 示 。 : : 
对 于 加 工 单元 区 来 说 ， 应 该 满足 产品 加 工时 图 12-8 加工 单元 区 
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高 性 能 的 数据 处 理 要 求 ， 从 整体 上 来 说 ， 产 品 加 工 流 程 是 批量 的 ， 并 且 利 用 并 行 处 理 技术 ， 
实现 不 同 产品 的 加 工 需 求 。 

e 产品 服务 区 

产品 服务 区 主要 提供 对 外 服务 ， 存 储 数据 类 与 工具 类 产品 的 数据 ， 以 及 各 种 产品 查询 记 
录 ， 如 图 12-9 所 示 。 


对 外 服务 。 ”| 存储 数据 类 与 工具 类 | 产品 查询 记录 
产品 数据 





12-9 产品 服务 区 


产品 从 整体 上 可 以 分 为 离线 查询 产品 和 实时 查询 产品 ， 两 类 产品 分 别 采用 不 同 的 数据 组 
织 形 式 ， 对 于 实时 查询 产品 ， 可 以 快速 地 反馈 查询 结 

产品 服务 区 的 数据 按照 产品 更 新 频 度 又 分 为 日 更 新 和 月 更 新 两 种 类 型 ， 更 新 频 度 不 
同 的 产品 提供 服务 的 时 间 范 围 不 同 ,日 了 迁移 产品 可 以 提供 全 天 的 服务 。 各 种 产品 查询 
的 记录 统一 存储 在 产品 服务 区 中 ,根据 产品 加 工 的 需求 ， 定 期 将 查询 记录 迁移 至 产品 
加 工区 。 

产品 服务 区 的 建设 方案 : 

首先 应 该 建设 数据 采集 平台 ， 将 采集 到 的 数据 加 载 到 基础 库 中 ， 实 现 数据 处 理 的 批量 
化 ， 可 以 利用 多 加 载 通道 实现 并 行 加 载 的 功能 。 

其 次 ， 利 用 数据 仓库 技术 进行 多 维 分 析 和 挖掘 。 一 般 来 说 ， 数 据 仓 库 包 括 数据 获取 层 、 
数据 存储 层 和 前 端 应 用 层 ， 如 图 12-10 所 示 。 

e 数据 获取 层 

数据 获取 层 把 基础 层 相 关 的 数据 经 过 抽取 、 转 换 和 清洗 ， 按 照 统一 的 模式 和 不 同 的 主题 
进行 集成 ， 装 载 到 数据 仓库 中 。 

e 数据 存储 层 

数据 存储 层 主要 包括 数据 仓库 和 数据 集 市 。 数 据 仓库 整合 系统 全 局 的 共享 信息 ， 它 包含 
历史 数据 信息 ， 记 录 了 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信息 ， 通 过 这 些 信 息 ， 可 以 对 企业 
的 发 展 状 况 和 未 来 趋势 做 出 分 析 和 预测 。 数 据 集 市 是 为 了 特定 的 目的 和 范围 ， 从 数据 仓库 中 
独立 出 来 的 一 部 分 数据 。 

e。 前 端 应 用 层 

前 端 应 用 层 包 括 统计 报表 和 数据 挖掘 ， 为 用 户 访 问 数据 仓库 提供 了 手段 。 同 时 也 预 留 了 
专业 统计 分 析 软 件 的 接口 。 
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统计 报表 数据 挖掘 
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数据 集 市 1 数据 集 市 3 前 
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数据 源 1 数据 源 2 数据 源 3 
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图 12-10 数据 获取 层 、 数 据 存储 层 和 前 端 应 用 层 
金融 行业 数据 架构 的 特点 ， 如 图 12-11 所 示 。 























需要 把 客户 的 数据 集中 起 来 ， 并 且 数据 仓库 不 仅仅 是 存放 数据 的 地 方 ， 
使 用 数据 仓库 进行 有 效 的 管理 同时 还 担负 着 把 信息 转化 成 知识 ， 
知识 转化 成 价值 的 责任 


























Se i en 
， 提 高 对 客户 的 服务 
































图 12-11 金融 行业 数据 架构 的 特点 


1) 对 于 商业 银行 来 说， 为 了 全 面 了 解 客户 的 需求 ， 并 且 提 高 服务 的 质量 ， 需 要 把 客户 

的 数据 集中 起 来 ， 并 且 使 用 数据 仓库 进行 有 效 的 管理 。 
2) 一 般 来 说 ， 银 行使 用 数据 库 技 术 支 持 各 种 交易 业务 。 数 据 仓库 是 把 企业 内 部 的 分 散 
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的 数据 库 进 行 集成 ， 形 成 统一 的 存储 体系 ， 相 对 于 数据 库 来 说 ， 数 据 仓库 不 仅仅 是 存放 数据 
的 地 方 ， 同 时 还 担负 着 把 信息 转化 成 知识 ， 知 识 转 化 成 价值 的 责任 。 

3) 利用 数据 仓库 技术 可 以 为 银行 带 来 很 多 利益 。 例 如 ， 通 过 数据 仓库 可 以 使 业务 人 员 
对 客户 有 一 个 全 面 的 了 解 ， 提 高 对 客户 的 服务 质量 。 

4) 通过 数据 仓库 技术 ， 对 诸如 ATM 交易 信息 和 柜台 交易 信息 进行 整合 ， 为 客户 提供 有 
针对 性 的 服务 。 





12.3 金融 行业 某 系 统 的 数据 架构 案例 


12. 3.1 传统 金融 行业 某 系统 的 数据 架构 案例 


数据 架构 是 企业 架构 的 重要 组 成 部 分 ， 帮 助 金融 行业 有 效 地 分 配 、 部 署 和 使 用 数 
据 ， 实 现 数据 的 合理 组 织 和 有 效 共 享 ， 从 而 保证 数据 在 各 个 系统 之 间 的 一 致 性 、 完 整 
性 和 有 效 性 。 

我 们 可 以 把 传统 金融 行业 菜系 统 的 数据 架构 分 成 以 下 几 个 部 分 : 源 数 据 层 、 内 容 管理 、 
数据 交换 层 、 数 据 基础 层 、 数 据 加 工 层 和 应 用 层 ， 如 图 12-12 所 示 。 其 中 ， 源 数据 层 提 供 
产品 加 工 和 对 外 服务 的 所 有 数据 。 内 容 管理 主要 提供 对 非 结 构 化 数据 存储 、 访 问 和 管理 的 能 
力 。 数 据 交 换 层 担负 着 系统 内 部 各 个 数据 库 之 间 的 数据 交换 任务 。 数 据 基 础 层 进行 格式 校 验 
及 逻辑 校 验 ， 形 成 唯一 可 信 的 数据 源 。 数 据 加 工 层 的 数据 来 源 为 数据 基础 层 ， 并 将 加 工 处 理 
的 数据 提供 给 应 用 层 。 应 用 层 可 以 包括 查询 类 应 用 和 分 析 类 产品 应 用 。 














层 提 供 产品 加 工 和 对 外 服务 的 所 有 数 





| 源 数 据 





| 1 源 数据 层 

















中 内 容 答 理 主要 提供 对 非 结构 化 数据 存储 、 访 问 和 管理 的 能 





| 数据 交换 层 担负 着 系统 内 部 各 个 数据 库 之 间 的 数据 交换 任 











数据 基础 层 进行 格式 校 验 及 逻辑 校 验 ， 形 成 唯一 可 信 的 数据 源 











数据 加 工 层 的 数据 来 源 为 数据 基础 层 ， 并 将 加 工 处 理 的 数据 
提供 给 应 用 层 ， 









































应用 层 可 以 包括 查询 类 应 用 和 分 析 类 产品 应 用 














图 12-12 传统 金融 行业 某 系 统 的 数据 架构 











1. 源 数据 层 

源 数 据 层 提供 产品 加 工 和 对 外 服务 的 所 有 数据 。 源 数据 层 应 该 满足 灵活 和 自动 化 的 要 
求 。 它 的 特点 主要 包括 以 下 几 个 方面 : 

1) 需要 描述 源 数 据 层 采集 哪些 数据 、 数 据 源 的 类 型 和 采集 方式 等 内 容 。 例 如 ， 数 据 源 
可 以 包括 Excel 、 数 据 库 和 通过 网 络 爬 虫 得 到 的 数据 等 。 
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2) 需要 描述 数据 源 的 内 容 格式 ， 如 结构 化 数据 和 非 结构 化 数据 。 
3) 需要 描述 数据 源 的 频率 特征 。 
举例 来 说 ， 源 数据 层 的 主要 特点 见 表 12-1。 

表 12-1 源 数据 层 的 主要 特点 














































































































数据 来 源 采集 内 容 数据 格式 数据 采集 方式 
政府 部 门 行政 处 罚 信息 和 奖励 信息 结构 化 数据 接口 方式 
互联 网 互联 网 信息 非 结构 化 数据 网 络 爬 虫 方式 
客户 身份 信息 、 职 业 信 息 、 居 住 
商业 银行 信息 、 联 络 信息 、 客 户 概况 信 息 等 | 结构 化 数据 接口 方式 
内 容 
手工 录入 的 数据 手工 录入 的 信息 结构 化 数据 中 间 件 方式 

















e 数据 来 源 可 以 包括 政府 部 门 、 互 联网 、 商 业 银 行 和 手工 录入 的 数据 等 。 

e 数据 源 的 格式 包括 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 。 

e 数据 采集 方式 包括 接口 方式 、 非 接口 方式 、 网 络 怜 虫 方 式 和 FTP 方式 等 。 

其 中 对 于 接口 方式 ， 它 主要 是 保证 数据 源 端的 数据 质量 ， 但 是 对 于 开发 、 调 试 、 测 试 和 
技术 方面 的 要 求 较 高 。 对 于 非 接口 方式 ， 特 点 是 前 期 投入 较 少 ， 对 于 技术 方面 要 求 不 高 ， 但 
是 数据 质量 不 能 保证 ， 对 于 人 工 的 依赖 较 强 。 对 于 网 络 爬 虫 的 采集 方式 ， 是 从 公 网 上 获取 非 
结构 化 数据 ， 但 收集 的 数据 量 较 大 ， 而 单个 数据 的 价值 很 低 ， 投 入 的 人 力 和 技术 也 很 大 。 对 
于 FTP 方式 ， 是 指 通 过 大 批量 非 结 构 化 数据 的 上 传 进行 采集 ,但 是 数据 安全 度 较 低 ， 比 较 
适合 非 结 构 化 数据 的 上 传 。 

2. 内 容 管理 

除了 从 相关 机 构 采 集结 构 化 的 数据 外 ， 还 
可 以 从 互联 网 或 者 其 他 渠道 采集 各 种 非 结 构 化 pe 
的 数据 。 采 集 的 非 结 构 化 数据 包括 : 互联 网 信 轩 计 2 二 
息 、 社 交 网 络 信 息 或 者 其 他 渠道 提供 的 非 结构 -要 
化 数据 ， 如 图 12-13 所 示 。 

一 般 来 说 ， 我 们 可 以 通过 网 络 疏 虫 等 技术 
收集 各 种 非 结 构 化 数据 ， 通 过 内 容 管理 存储 非 
结构 化 数据 ， 建 立 非 结 构 化 数据 的 元 数据 信息 ， 这 些 元 数据 信息 可 以 存储 在 Hadoop 平台 中 。 
其 中 非 结构 化 元 数据 可 能 包括 信息 标签 、 摘 要 、 索 引 和 日 志 等 。 然 后 ， 在 此 基础 上 ， 与 结构 
化 数据 进行 关联 ， 以 供 分 析 使 用 。 这 种 方式 实现 了 非 结 构 化 数据 与 结构 化 数据 的 整合 ， 以 供 
后 续 加 工 和 使 用 ， 如 图 12-14 所 示 。 





图 12-13 内容 管 理 


容 管理 


( 半 结 构 化 / 人 Hadoop 








图 12-14 非 结构 化 数据 与 结构 化 数据 的 整合 
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3. 数据 交换 层 

(1) 数据 交换 层 的 任务 和 功能 

数据 交换 层 承 担 着 数据 库 之 间 的 数据 交换 任务 ， 同 时 也 承担 着 外 部 文件 和 数据 库 之 间 的 
交换 任务 。 数 据 交换 层 中 的 内 部 交换 如 图 12-15 所 示 。 


b= ce Be 


图 12-15 数据 交换 层 中 的 内 部 交换 
数据 交换 层 中 的 外 部 交换 如 图 12-16 所 示 。 














如 车 冰 芋 涝 











数据 源 


文件 传输 文件 传输 


i 


图 12-16 数据 交换 层 中 的 外 部 交换 


数据 交换 层 具 备 数据 抽取 、 质 量 检查 、 数 据 转 换 、 
数据 加 载 四 大 功能 ， 如 图 12-17 所 示 。 

1) 数据 抽取 。 数 据 抽取 是 从 源 数 据 层 获 取 数 据 ， 
它 可 以 实时 或 者 定期 地 获取 增 量 数据 ， 通 过 数据 库 连 
接 的 方式 ， 也 可 以 通过 文件 交换 的 方式 进行 数据 抽取 ， 
抽取 的 范围 可 以 是 结构 化 数据 和 非 结 构 化 数据 。 

2) 质量 检查 。 经 过 质量 检查 ( 见 图 12-18)， 对 
数据 进行 清洗 、 取 舍 和 去 重 ， 生 成 清洗 后 的 数据 文件 ， 
满足 数据 质量 的 基本 要 求 。 数 据 交 换 层 的 主要 工作 就 
是 进行 质量 检查 。 不 合格 的 文件 是 没有 通过 质量 验证 
的 数据 。 质 量 检查 的 内 容 包 括 数据 的 类 型 、 格 式 和 长 
度 等 内 容 。 

3) 数据 转换 。 数 据 转换 的 功能 是 对 数据 质量 清洗 后 的 数据 按照 业务 规则 进行 转换 。 

4) 数据 加 载 。 数 据 加 载 的 功能 是 创建 可 导入 的 文件 ， 然 后 批量 或 者 单条 记录 地 导入 到 
系统 中 。 
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图 12-17 数据 交换 层 功 能 








校 验 通过 的 文件 


2 数据 一 致 性 不 合格 的 文件 
数据 完整 性 
数据 准确 性 
质量 检查 的 日 志 信 息 























(2) 数据 交换 层 的 功能 描述 
1) 数据 交换 层 主要 是 数据 交换 的 场所 ， 它 承担 了 各 个 层次 之 间 的 交换 任务 。 


2) 数据 交换 层 支 持 外 部 交换 的 校 验 过 程 。 
如 图 12-19 所 示 ， 次 辑 校 验 主要 是 缓冲 区 与 加 载 区 的 数据 进行 关联 校 验 ,经 过 格式 校 


验 和 逻辑 校 验 之 后 ， 将 数据 加 载 到 加 载 区 中 。 
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图 12-19 校 验 过 程 


3) 数据 交换 层 承 担 着 内 部 系统 和 外 部 系统 的 数据 交换 任务 。 
3 了 07 


如 图 12-20 所 示 ， 对 于 主 数据 来 说 ， 可 以 将 唯一 身份 信息 通过 数据 交换 层 传输 给 外 部 
系统 。 对 于 数据 仓库 来 说 ， 可 以 将 质量 检查 结果 通过 数据 交换 层 传输 给 外 部 系统 。 对 于 查询 
库 来 说 ， 可 以 将 查询 记录 通过 数据 交换 层 传输 给 外 部 系统 。 

唯一 身份 信息 ”质量 检查 结果 分 析 查询 记录 分 析 




















图 12-20 数据 交换 层 支 持 内 部 系统 和 外 部 系统 之 间 的 数据 交换 


总 之 ， 数 据 交 换 层 文 持 系 统 内 部 系统 和 外 部 系统 之 间 的 数据 交换 。 

4) 数据 交换 层 文 持 系统 内 部 的 数据 在 各 个 数据 库 之 间 的 流转 。 

5) 数据 交换 层 的 订阅 发 布 模式 可 以 实现 一 源 多 目标 的 数据 更 新 ， 如 图 12-21 所 示 ， 当 
数据 源 发 出 一 份 数据 文件 后 ， 根 据 订 阅 配 置信 息 ， 将 该 数据 文件 传输 到 指定 位 置 ， 然 后 根据 
不 同 的 转换 规则 ， 把 数据 加 载 到 不 同 的 目标 库 中 。 

根据 订阅 配置 信息 ， 把 数据 文件 传输 到 指定 的 地 点 
转换 /加载 


L 一 一 一 
1 











数据 文件 2 er 下 


转换 / 加 载 
医 .3 二 | 医 梧 
地 点 C 


| | 目标 库 3 
转换 / 加 载 
根据 不 同 的 业务 转换 规则 ， 进 行 数据 加 载 


图 12-21 数据 交换 层 的 订阅 发 布 模式 


6) 数据 在 传输 过 程 中 不 进行 任何 加 工 的 动作 ， 如 图 12-22 所 示 。 同 时 确保 数据 传输 与 
加 工 能 够 以 流水 线 作 业 的 方式 进行 ， 同 时 细 化 作业 任务 ， 分 析 作 业 任 务 之 间 的 依赖 关系 ， 如 
图 12-23 所 示 。 
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数据 传输 过 程 中 
不 执行 加 工 动作 








OO 
© 








数据 源 数据 传输 和 加 了 





数据 传输 与 加 工 
能 够 以 流水 线 作 
业 方 式 进 行 










村 巡 推荐 该 方法 
RS I/ 2 





数据 源 数据 传输 缓冲 区 


二 
a 00 


图 12-23 ”数据 传输 与 加 工 以 流水 线 作 业 的 方式 进行 























4. 数据 基础 层 
数据 基础 层 是 对 抽取 的 数据 进行 格式 校 验 和 逻辑 校 验 ， 它 作为 系统 唯一 可 信 的 数据 源 。 


数据 基础 层 包含 三 个 部 分 ， 临 时 加 载 区 、 基 础 库 和 非 结构 化 数据 ， 如 图 12-24 所 示 。 
数据 基础 层 





临时 加 载 区 





非 结 构 化 数据 





12-24 数据 基础 层 
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临时 加 载 区 作为 校 验 数据 进入 系统 的 唯一 途径 ， 主 要 包括 缓冲 区 和 加 载 区 。 缓 冲 区 是 为 
数据 交换 设置 的 临时 区 域 ， 为 后 续 的 逻辑 校 验 做 准备 。 而 加 载 区 主要 完成 格式 校 验 和 逻辑 校 
验 功 能 ， 如 图 12-25 所 示 。 

基础 库存 储 的 是 系统 唯一 可 信 的 数据 源 ， 存 储 的 期 限 根据 业务 需求 而 定 。 它 主要 存储 校 

5. 数据 加 工 层 

数据 加 工 层 的 数据 来 源 于 数据 基础 层 的 基础 库 ， 然 后 将 加 工 处 理 后 的 数据 提供 给 应 用 
层 。 数 据 加 工 层 包括 查询 库 、 主 数据 和 数据 仓库 ， 如 图 12-26 所 示 。 


数据 加 工 层 








临时 加 载 区 






格式 校 验 通过 的 数据 落地 到 缓冲 














缓冲 区 的 数据 和 数据 加 载 区 数据 关联 进行 逻辑 校 验 
图 12-25 ”临时 加 载 区 12-26 数据 加 工 层 


数据 加 工 层 的 流程 如 图 12-27 所 示 。 
数据 基础 层 数据 加 工 层 

















非 结构 化 数据 























图 12-27 数据 加 工 层 的 流程 





(1) 查询 库 
对 于 查询 库 来 说 ， 要 求 时 效 性 高 。 基 础 库 将 数据 导出 成 增 量 文件 ， 加 载 到 查询 库 中 。 
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(2) 主 数 据 

主 数据 主要 描述 商业 银行 核心 的 信息 ， 例 如 对 于 身份 信息 识别 和 归并 的 整合 ， 尤 其 是 当 
商业 银行 从 以 “账户 为 中 心 ” 向 以 “以 客户 为 中 心 ”转变 的 时 候 。 对 于 客户 身份 信息 的 整 
合 是 非常 重要 的 。 主 数据 将 整合 后 的 结果 再 提供 给 数据 仓库 使 用 。 

对 于 身份 信息 整合 来 说 ， 可 以 按照 时 间 的 先后 顺序 进行 覆盖 ， 或 者 采用 全 部 保留 的 方 
式 。 对 于 疑似 身份 信息 的 整合 ， 有 可 能 需要 经 过 人 工 判断 。 

主 数据 也 可 以 存储 商业 银行 的 客户 关联 信息 。 

(3) 数据 仓库 

数据 仓库 一 般 包 括 基础 数据 层 、 汇 总 数据 层 和 库 内 集 市 层 。 数 据 仓库 有 以 下 两 个 特性 ， 
如 图 12-28 所 示 。 








数据 仓库 中 的 数据 包 
含 历史 数据 











数据 仓库 整合 系统 全 
局 的 共享 信息 











图 12-28 数据 仓库 的 特性 

1) 数据 仓库 整合 系统 全 局 的 共享 信息 。 

可 以 收集 、 清 洗 、 转 换 和 存储 各 种 操作 型 的 数据 源 。 

2) 数据 仓库 中 的 数据 包含 历史 数据 。 

它 记 录 了 系统 从 过 去 某 一 时 间 点 到 目前 各 个 阶段 的 信息 ， 通 过 对 这 些 信 息 的 分 析 ， 可 以 
为 企业 的 发 展 状况 和 未 来 趋势 做 出 分 析 预 测 。 其 中 数据 仓库 的 数据 包括 基础 库 的 数据 、 查 询 
库 的 数据 和 主 数 据 整 合 后 的 身份 信息 数据 。 

e 数据 仓库 基础 数据 层 的 特点 

数据 仓库 基础 数据 层 的 数据 是 按照 模型 进行 组 织 的 。 基 础 数据 层 的 数据 作为 汇总 层 或 者 
库 内 集 市 的 数据 源 。 基 础 数据 层 的 数据 一 般 不 做 删除 。 

e 数据 仓库 汇总 数据 层 的 特点 

数据 仓库 汇总 数据 层 主 要 是 对 基础 数据 层 的 数据 进行 轻 度 汇总 ， 目 的 是 减少 共性 的 
加 工 。 

汇总 数据 层 的 建设 是 随 着 需求 的 增加 而 不 断 扩展 的 ， 
对 于 汇总 数据 层 的 处 理 也 是 以 创建 中 间 表 为 主 ， 目 的 是 为 
后 续 数 据 加 工 使 用 做 准备 的 ， 同 时 提高 了 数据 仓库 的 性 能 。 

。 库 内 集 市 层 的 特点 


一 般 来 说 ， 数 据 集 市 层 是 根据 应 用 需求 而 形成 的 数 
据 集合 ， 它 支撑 了 各 个 部 门 的 业务 应 用 。 每 个 部 门 都 可 民生， 研发 类 集 市 
< ~、 














分 析 类 集 市 








以 根据 各 自 的 需求 ， 在 集 市 上 进行 定义 和 维护 。 
数据 集 市 可 以 分 成 分 析 类 集 市 、 研 发 类 集 市 和 管理 
类 集 市 ， 如 图 12-29 所 示 。 图 12-29 ”数据 集 市 
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。 分 析 类 集 市 
分 析 类 集 市 是 通过 数据 挖掘 的 方法 帮助 企业 提高 业务 运营 效率 ， 发 现 企业 内 部 的 规律 和 发 


展 趋势 。 分 析 类 和 集 市 可 以 包括 文本 分 析 、 模 拟 分 析 、 预 测 分 析 和 可 视 化 分 析 等 ， 见 表 12-2。 
表 12-2 分 析 类 集 市 






























































分 析 类 集 市 描 述 
文本 分 析 是 对 各 种 非 结构 化 文本 数据 进行 分 析 ， 将 各 种 单词 、 短 语 赋予 语义 ， 我 们 通过 词 频 

文本 分 析 统计 ， 或 者 更 复杂 的 过 程 进 行 分 析 。 举 例 来 说 ， 情 感 分 析 是 从 大 量 的 人 群 中 挖掘 出 对 某 个 企业 

或 者 机 构 的 总 体 观点 ， 同 时 提供 客户 对 相关 机 构 的 各 种 评论 和 感受 ， 使 得 企业 或 者 机 构 可 以 更 

好 地 掌握 客户 感受 ， 分 析 客 户 的 真正 需求 

模拟 分 析 用 先进 的 手段 模拟 业务 流程 、 行 为 ， 帮 助 企业 制定 未 来 业务 发 展 的 方向 

预测 分 析 分 析 历 史 和 当前 数据 ， 预 测 企业 未 来 的 业务 方向 

可 视 化 分 析 通过 图 表 、 地 图 等 各 种 可 视 化 的 形式 ， 分 析 各 种 趋势 

。 研发 类 集 市 


研发 类 集 市 是 支撑 各 个 业务 部 门 的 应 用 系统 ， 主 要 用 于 支持 研究 分 析 类 的 工作 ， 同 时 研 
发 类 集 市 也 可 以 支持 临时 的 抽 数 功能 。 

。 管理 类 集 市 

管理 类 集 市 是 指 为 了 提高 运营 管理 而 进行 的 整合 分 析 。 管 理 类 集 市 包括 : 管理 驾驶 舱 、 


固定 报表 、OLAP 分 析 、KPI 等 ， 见 表 12-3。 
表 12-3 管理 类 集 市 






















































































管理 类 集 市 描 述 
ee 对 高 层 人 员 关 注 的 经 营 活动 关键 指标 做 定制 化 的 展示 ， 并 且 以 各 种 直观 的 图 表 形 
管理 驾驶 舱 
式 进 行 展示 
固定 报表 以 固化 报表 的 形式 进行 数据 展示 
OLAP 分 析 以 多 维 分 析 的 方式 帮助 决策 者 发 现 问题 、 追 溯 问 题 根源 和 预测 发 展 趋势 
KPI 业务 运营 和 绩效 管理 关键 指标 


其 中 基础 数据 库 和 数据 仓库 基础 层 的 区 别 : 

1) 在 组 织 形 式 上 ， 基 础 库 是 贴 数据 源 的 数据 ,时效 性 较 高 ， 支 持 对 基础 产品 的 加 工 ， 
为 数据 仓库 提供 数据 源 。 

2) 数据 仓库 基础 层 是 按照 第 三 范式 的 方式 进行 存储 ， 时 效 性 较 低 。 数 据 仓 库 基础 层 支 
持 汇 总 加 工 ， 同 时 支持 高 级 分 析 。 

6. 应 用 层 

应 用 层 包括 查询 类 应 用 、 分 析 类 应 用 和 管理 类 应 用 。 应 用 层 的 数据 可 以 批量 加 载 ， 负 责 
对 外 提供 服务 ， 同 时 查询 记录 可 以 回流 到 数据 仓库 的 基础 屋 ， 以 支持 分 析 类 应 用 和 管理 类 
应 用 。 

主 数据 的 身份 整合 信息 回流 到 数据 仓库 基础 层 ， 以 支持 分 析 类 应 用 和 管理 类 应 用 。 


Hi 


应 用 层 的 数据 流转 如 图 12-30 所 示 。 
查询 类 应 用 时 效 性 较 高 ， 一 些 产 品 快照 信息 和 查询 记录 可 以 返回 给 数据 仓库 。 通 过 对 产 


品 数 据 的 读 写 分 离 ， 可 以 最 大 限度 地 提高 产品 查询 效率 。 
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查询 库 查询 类 应 用 


主 数据 分 析 类 应 用 











管理 类 应 用 


数据 仓库 














图 12-30 ”应 用 层 的 数据 流转 








12.3.2 互联 网 金融 行业 的 数据 架构 


互联 网 金融 实质 上 是 互联 网 技术 与 金融 服务 的 结合 。 互 联网 技术 提高 了 金融 行业 的 服务 
效率 ， 拓 宽 了 渠道 和 金融 服务 模式 ， 但 是 没有 改变 金融 行业 的 本 质 。 互 联网 金融 并 没有 改变 
传统 金融 行业 中 的 存款 、 贷 款 、 汇 款 和 投资 理财 等 功能 。 同 时 互联 网 金融 企业 依赖 于 传统 商 
业 银 行 提 供 的 身份 信息 认证 等 服务 。 所 以 说 互联 网 金融 是 对 传统 金融 的 有 益 补 充 。 

但 是 互联 网 金融 与 传统 的 金融 有 一 定 的 区 别 。 例 如 ， 互 联网 金融 非常 重视 客户 的 体验 ， 
特别 是 方便 性 和 快捷 性 ， 但 在 安全 性 和 严格 性 上 还 要 不 断 提 高 。 我 们 应 该 对 互联 网 金融 机 构 
提出 严格 的 监管 要 求 ， 同 时 也 对 商业 银行 的 创新 战略 提供 新 的 思路 。 

在 互联 网 金融 的 背景 下 ， 商 业 银行 的 创新 思路 包括 以 下 几 个 方面 ， 如 图 12-31 所 示 。 














商业 银行 的 创新 思路 劳 。 业 务 模式 的 创新 











图 12-31 ”商业 银行 的 创新 思路 











(1) 重视 客户 的 体验 

商业 银行 要 以 客户 为 中 心 ， 从 理解 客户 的 角度 设计 金融 产品 和 服务 内 容 。 同 时 优化 银行 
内 部 工作 流程 ， 简 化 客户 的 操作 ， 为 客户 提供 方便 快捷 的 高 效 服务 。 商 业 银 行 可 以 利用 各 种 
资源 ， 例 如 移动 终端 、 微 博 、 微 信和 各 种 社交 网 站 ， 开 展 全 方位 的 客户 营销 。 
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(2) 加 强 对 服务 、 业 务 模式 的 创新 

商业 银行 需要 加 强 对 服务 、 业 务 模式 的 创新 ， 包括 支 付 手 段 的 创新 、 开 发 各 种 适合 大 小 
额 支付 的 产品 和 对 各 种 融资 产品 的 创新 等 内 容 。 

(3) 运用 大 数据 的 技术 

对 于 大 数据 技术 的 运用 是 提升 商业 银行 核心 竞争 力 的 基础 ， 它 可 以 利用 大 数据 技术 优化 
业务 流程 ， 提 升 安全 与 风险 的 管理 能 

下 面 分 析 一 下 互联 网 金融 和 传统 金融 的 区 别 ， 见 表 12-4。 

表 12-4 互联 网 金融 和 传统 金融 的 区 别 






























































分 类 pan 
全 互联 网 金融 传统 金融 
ei 是 三 | 
有 
a 面向 所 有 互联 同 客户， 旬 括 名 和 客户 和 | 如 村 窑 户 为 
产品 包括 所 有 的 互联 网 金融 产品 和 服务 以 传统 商业 银行 产品 和 服务 为 主 
业务 需求 业务 需求 变化 较 忆 相对 固定 ， 同 时 有 人 金融 监管 机 构 进 行 监督 
渠道 所 有 与 互联 网 相关 的 渠道 包括 实体 柜 面 、 网 上 银行 、ATM 、 手 机 银行 等 

















互联 网 金融 行业 的 全 架构 主要 包括 应 用 架构 、 数 据 架 构 和 技术 架构 ， 如 图 12-32 所 示 。 


N 数据 架构 






图 12-32 互联 网 金融 行业 的 开架 构 


互联 网 金融 行业 的 应 用 架构 需要 重点 考虑 技术 的 开放 性 ， 包 括 对 大 规模 并 发 和 快速 响应 
需求 的 支持 。 数 据 架构 主要 考虑 提高 数据 的 智能 程度 ， 增 强 客户 的 体验 度 。 技 术 架 构 强 调 建 
立 一 个 安全 的 体系 架构 。 

(1) 互联 网 金融 行业 的 应 用 架构 

应 用 架构 强调 以 客户 体验 为 中 心 ， 数 据 驱 动 为 主 的 原则 。 其 中 面向 服务 的 架构 设计 ， 可 
以 包括 渠道 层 、 业 务 操作 层 、 产 品 服务 层 、 决 策 文 持 层 和 基础 应 用 层 等 几 个 部 分 。 

(2) 互联 网 金融 行业 的 数据 架构 

数据 架构 主要 强调 数据 的 一 致 性 和 实时 性 ， 可 以 考虑 对 结构 化 数据 、 半 结构 化 数据 和 非 
机 构 化 数据 的 存储 。 同 时 考虑 使 用 分 布 式 云 计算 技术 ， 以 满足 对 海量 数据 存储 、 计 算 和 多 用 
户 并 发 的 使 用 。 在 大 数据 技术 的 使 用 上 ， 可 以 考虑 使 用 分 布 式 文件 系统 、NoSQL 数据 库 、 
流 数 据 处 理 技术 等 。 
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(3) 互联 网 金融 行业 的 技术 架构 
技术 架构 主要 强调 构建 一 个 安全 架构 体系 ， 主 要 包括 合 规 、 治 理 、 人 员 、 运 维和 各 种 流 
程 监控 等 。 同 时 业务 可 以 扩展 到 云 平台 、 虚 拟 化 环境 和 社交 网 络 平台 。 





12.4 金融 行业 的 商业 智能 


12.4.1 金融 行业 商业 智能 的 背景 和 作用 


在 当前 市 场 兖 争 激烈 和 商业 银行 业务 转型 的 大 背景 下 ， 商 业 银行 正面 临 着 各 种 机 遇 和 挑 
战 。 利 用 商业 智能 技术 ， 可 以 大 大 提高 商业 银行 的 服务 水 平和 内 部 管理 水 平 。 特 别 是 在 数据 
大 集中 的 背景 下 ， 商 业 智能 已 经 成 为 商业 银行 信息 化 建设 的 必然 选择 之 一 。 

商业 智能 (BI) 是 对 各 种 信息 收集 、 管 理 和 分 析 的 过 程 ， 目 的 是 使 企业 的 决策 者 能 
获得 知识 和 洞察 力 。 商 业 智能 一 般 由 数据 仓库 、 数 据 集 市 、 数 据 挖掘 和 在 线 分 析 等 部 分 组 
成 。 商 业 智 能 提高 了 企业 和 商业 银行 的 管理 水 平 ， 强 化 了 对 风险 管理 和 产品 的 创新 能 

同时 商业 智能 可 以 更 好 地 帮助 企业 抓 住 机 遇 ， 应 对 市 场 挑战 。 商 业 智 能 的 作用 主要 
体现 在 以 下 几 个 方面 : 对 客户 的 信息 进行 整合 ， 商 业 银 行 的 风险 管理 能 力 将 会 得 到 提 
高 ， 商 业 银行 可 以 实现 内 部 的 精细 化 管理 ， 帮 助 商业 银行 发 现 有 价值 的 客户 群体 ， 如 
图 12-33 所 示 。 











时 


得 到 提高 


对 客户 的 信息 进行 整合 商 ， Bel - 


商业 银行 可 以 实现 内 和 帮助 商业 银行 发 现 有 
部 的 精细 化 管理 价值 的 客户 群体 




















12-33 ”商业 智能 的 作用 








(1) 对 客户 的 信息 进行 整合 

通过 商业 智能 技术 ， 可 以 对 客户 的 信息 进行 整合 ， 能 够 反映 客户 信息 的 全 貌 ， 使 得 管理 
者 可 以 从 产品 类 型 、 行 业 、 机 构 等 不 同 的 角度 对 客户 关心 的 各 类 指标 进行 分 析 ， 使 得 分 析 更 
具有 针对 性 。 

(2) 商业 银行 的 风险 管理 能 力 将 会 得 到 提高 

通过 商业 智能 技术 ， 商 业 银行 的 风险 管理 能 力 将 会 得 到 大 幅度 提高 ， 例 如 各 种 的 操作 风 
险 、 客 户 信用 风险 、 市 场 风 险 和 业务 运营 风险 等 将 会 得 到 有 效 控制 。 通 过 集中 数据 ， 使 得 风 
险 管理 机 构 能 够 全 面 掌握 数据 ， 可 以 根据 对 历史 数据 的 分 析 ， 实 现 当 前 业务 的 预警 和 风险 
评级 。 
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(3) 商业 银行 可 以 实现 内 部 的 精细 化 管理 

通过 商业 智能 技术 ， 商 业 银行 可 以 实现 内 部 的 精细 化 管理 ， 使 得 各 种 绩效 考核 和 成 本 管 
理 更 准确 ， 同 时 能 够 在 产品 、 客 户 、 机 构 等 各 条 业务 线 上 对 指标 进行 量化 。 

(4) 帮助 商业 银行 发 现 有 价值 的 客户 群体 

通过 商业 智能 技术 ， 可 以 帮助 银行 发 现 有 价值 的 客户 群体 ， 针 对 这 些 客 户 的 价值 度 和 贡 
献 度 ， 有 针对 性 地 设计 出 更 好 的 金融 产品 ， 从 而 更 好 地 为 客户 服务 ， 同 时 实现 利润 的 最 
大 化 。 


12. 4. 2 ”金融 行业 如 何 实施 商业 智能 


金融 行业 商业 智能 的 实施 离 不 开 高 层 领导 的 重视 ， 同 时 需要 投入 大 量 的 资源 。 在 制定 整 
体 规划 的 同时 ， 需 要 明确 各 个 阶段 的 实施 重点 。 可 以 按照 商业 智能 的 实施 方法 论 开 展 工作 ， 
包括 建立 数据 仓库 、 数 据 集 市 、 元 数据 管理 系统 、OLAP 等 。 

在 实施 商业 智能 的 同时 ， 同 样 需要 业务 部 门 和 技术 部 门 的 广泛 合作 ， 开 发 出 适合 业务 发 
展 的 商业 智能 应 用 系统 。 

金融 行业 实施 商业 智能 主要 有 以 下 几 个 方面 的 内 容 : 

1) 商业 智能 的 实施 需要 由 业务 进行 推动 ， 首 先 应 该 明确 业务 发 展 的 方向 ， 制 定 出 各 个 
阶段 商业 智能 实施 的 重点 ， 为 商业 智能 大 规模 的 应 用 提供 经 验 ， 同 时 短期 内 可 以 促进 业务 的 
发 展 ， 增 强 下 一 阶段 工作 的 信心 。 对 于 商业 银行 来 说 ， 首 先 应 该 完成 对 客户 信息 的 整合 ， 形 
成 基础 数据 ， 然 后 建立 数据 仓库 、 数 据 集 市 、OLAP 分 析 等 基础 架构 。 通 过 对 各 种 业务 应 用 
的 实施 过 程 ， 形 成 完备 的 技术 架构 ， 逐 步 建 立 起 具有 实施 能 力 的 团队 。 

2) 在 商业 智能 的 实施 过 程 中 ， 需 要 重视 对 数据 的 清洗 和 整合 ， 为 数据 仓库 的 建设 打下 
基础 。 在 此 基础 上 ， 需 要 注重 对 数据 资源 的 整体 规划 ， 制 定 出 实施 步 又， 保证 实施 的 长 效 
性 。 同 时 推动 业务 流程 的 改进 ， 完 善 业 务 活 动 环节 ， 发 挥 商业 智能 的 价值 。 

金融 行业 可 以 将 商业 智能 系统 划分 成 以 下 几 个 层次 : 数据 源 层 、 数 据 模 型 层 、 可 视 化 组 
件 层 和 交付 展示 层 ， 如 图 12-34 所 示 。 















































数据 源 层 数据 模型 层 


可 视 化 组 件 层 








图 12-34 ”金融 行业 的 商业 智能 系统 划分 














e 数据 源 层 
主要 支持 各 种 数据 源 ， 例 如 Hadoop 、NoSQL 、 文 本 、Excel 、CSYV 等 。 
e 数据 模型 层 
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主要 针对 各 类 数据 源 、 大 数据 集群 和 集成 的 企业 应 用 模型 ， 同 时 支持 OLAP 立方 体 
模型 。 

。 可 视 化 组 件 层 

可 视 化 组 件 层 主要 包含 管理 吉 驶 舱 、 报 表 、 多 维 分 析 、 数 据 集成 和 数据 挖 气 ， 如 图 12-35 
所 示 。 











数据 挖掘 数据 集成 


图 12-35 可视化 组 件 层 
可 视 化 组 件 层 各 组 成 部 分 的 功能 及 用 户 见 表 12-5。 
表 12-5 可 视 化 组 件 层 各 组 成 部 分 的 功能 及 用 户 























名 称 具 休 功能 主要 用 户 
生理 和 内 。。 | 运行 拓 太 ， 将 采集 的 水 和 化 和 具体 化 | 。 业务 用 

报表 即席 分 析 、 操 作 报表 业务 用 户 

多 维 分 析 高 级 分 析 、 多 维度 探查 数据 业务 用 户 、 高 级 用 户 
数据 集成 高 性 能 数据 集成 、 大 数据 清洗 高 级 用 户 、 开 发 人 员 、DBA 
数据 挖 所 高 级 预测 分 析 业务 用 户 、 超 级 用 户 


























。 交付 展示 层 

交付 展示 层 提供 面向 用 户 和 集成 商 的 全 面 接口 ， 主 要 包括 Web 、 移 动 终端 、 打 印 、 电 
子 邮 件 等 数据 输出 支持 。 一 般 来 将， 交付 展示 层 可 以 提供 丰富 的 二 次 开发 接口 及 应 用 服务 
接口 。 


12. 4.3 ”金融 行业 的 业务 流程 和 运营 模式 优化 


在 商业 银行 中 ， 业 务 部 门 会 提出 各 种 需求 , 同时 IT 部 门 会 根据 计划 对 各 种 需求 进行 立 
项 。 当 系统 设计 、 开 发 完毕 ,一 直到 上 线 后 ，IT 部 门 会 根据 业务 部 门 提出 的 问题 进行 修改 
和 优化 。 目 前 来 说 ， 多 数 商业 银行 很 少 关注 对 业务 流程 和 运营 模式 的 优化 ， 然 而 业务 流程 和 
运营 模式 的 优化 可 以 促进 商业 银行 业务 的 发 展 。 那 么 如 何 进 行 优化 呢 ? 

我 们 整理 一 下 整体 的 思路 : 

通过 对 金融 行业 的 环境 分 析 ， 对 战略 的 理解 和 核心 业务 流程 的 描述 ， 同 时 参考 行业 内 先 
进 的 实践 经 验 ， 提 出 对 商业 银行 业务 流程 的 优化 和 改进 意见 ， 如 图 12-36 所 示 。 
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参考 行业 先进 的 经 验 
优化 和 改进 


金融 行业 的 环境 分 析 


战略 的 理解 


核心 业务 流程 的 描述 


图 12-36 金融 行业 的 业务 流程 和 运营 模式 优化 



















。 金融 行业 的 环境 分 析 

主要 了 解 金融 行业 的 整体 发 展 趋势 、 技 术 发 展 水 平和 竞争 态势 ， 以 及 该 金融 机 构 在 市 场 
元 争 中 将 要 面临 的 机 遇 和 风险 等 内 容 。 

e 对 金融 行业 战略 的 理解 

主要 理解 金融 行业 的 发 展 方向 、 战 略 目标 。 

。 核心 业务 流程 的 描述 

识别 关键 的 业务 流程 ， 找 出 业务 流程 和 运营 模式 需要 改进 的 地 方 。 

。 优化 和 改进 

参考 行业 内 先进 的 经 验 和 业务 现状 ， 优 化 和 改进 该 金融 机 构 的 业务 流程 和 运营 模式 。 

1. 对 金融 行业 的 环境 分 析 

金融 行业 的 环境 分 析 主 要 包括 行业 的 发 展 趋势 、 技 术 变革 等 几 个 方面 。 

1) 对 金融 机 构 来 说 ， 如 何 能 够 为 客户 提供 丰富 的 产品 和 服务 是 首要 问题 。 例 如 ， 随 着 
社会 老龄 化 的 到 来 ， 一 些 金融 机 构 可 以 为 老人 提供 风险 较 低 的 理财 产品 ， 以 满足 客户 对 生活 
的 基本 需求 。 同 时 也 可 以 考虑 其 他 的 消费 群体 ， 为 年 轻 人 提供 更 方便 和 快捷 的 移动 金融 服 
务 等 。 

2) 随 着 资本 市 场 的 成 熟 ， 金 融 脱 媒 现 象 越发 明显 ， 特 另 
降低 了 商业 银行 的 利润 空间 。 

3) 随 着 技术 的 进步 ， 客 户 获取 信息 的 渠道 越 来 越 多 ， 特 别 是 互联 网 和 社交 网 络 的 发 展 ， 
增加 了 金融 机 构 和 客户 之 间 的 信息 不 对 称 。 这 要 求 金融 机 构 通 过 各 种 渠道 采集 完整 的 客户 信 
息 ,减少 这 种 不 对 称 性 ， 提 高 金融 机 构 的 决策 分 析 能 力 和 风险 管控 能 

2. 对 金融 行业 先进 经 验 的 分 析 
通过 对 国内 外 金融 机 构 先 进 经 验 的 分 析 ， 以 市 场 作为 驱动 力 ， 强 化 对 产品 的 创新 能 力 和 
对 外 服务 能 力 。 对 核心 的 竞争 优势 进行 分 析 ， 从 而 提高 自身 的 能 力 。 例 如 ， 很 多 国外 先进 的 
金融 机 构 ， 它 们 的 业务 模式 可 以 包括 决策 分 析 、 行 业 解 决 方案 等 。 它 们 基于 数据 匹配 和 整合 
技术 ， 为 客户 提供 各 种 专业 化 和 个 性 化 产品 和 服务 。 

3. 核心 业务 流程 的 描述 

对 于 金融 机 构 来 说 ， 它 的 核心 业务 流程 是 数据 采集 、 产 品 加 工 、 产 品 研 发 和 对 外 服务 。 
其 中 数据 采集 和 产品 加 工 是 数据 流动 的 过 程 。 产 品 研发 是 从 产品 的 设计 、 研 发 ， 一 直到 产品 
上 线 的 过 程 。 对 外 服务 是 客户 申请 服务 到 服务 终止 的 过 程 。 

对 于 商业 银行 来 说 ， 如 何 提高 对 客户 的 服务 能 力 和 工作 效率 ， 降 低 运营 成 本 ， 提 升 产品 
研发 和 对 外 服务 的 核心 竞争 力 是 业务 优先 关注 的 地 方 。 
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4. 优化 和 改进 
关于 金融 行业 业务 流程 和 运营 模式 的 优化 和 改进 措施 主要 包括 以 下 几 种 手段 : 对 数据 采 
集 、 产 品 加 工 的 优化 ， 对 产品 服务 的 优化 ， 对 产品 研发 流程 的 优化 等 等 ， 如 图 12-37 所 示 。 





对 数据 采集 、 产 
加 工 的 优化 


” 


品 对 产品 服务 的 优化 
时 一 和 ~ 





关于 产品 研发 流程 的 优化 
图 12-37 金融 行业 业务 流程 和 运营 模式 的 优化 和 改进 措施 

















(1) 对 数据 采集 、 产 品 加 工 的 优化 

目前 很 多 商业 银行 的 数据 采集 、 产 品 加 工 的 扩展 性 都 不 高 。 对 数据 自动 化 处 理 能 力 、 数 
据 质 量 和 采集 策略 的 管理 能 力 普 遍 较 低 。 

我 们 可 以 在 数据 源 规划 、 调 度 监控 管理 和 校 验 等 几 个 方面 进行 改进 和 优化 。 

1 ) 参考 数据 源 业务 发 生 的 频率 ， 提 高 数据 采集 的 灵活 性 。 将 数据 采集 、 数 据 加 工 和 对 
外 服务 进行 综合 考虑 ， 以 实现 业务 之 间 的 平衡 。 

2) 通过 调度 监控 的 管理 ， 实 现 各 个 作业 任务 之 间 的 协调 ， 使 不 同 的 业务 环节 围绕 在 统 
一 体系 下 。 解 决 办 法 是 建立 数据 采集 和 调度 监控 机 制 ， 加 强 产品 加 工 的 能 力 。 同 时 可 以 收集 
宏观 的 产品 需求 信息 、 产 品 的 反馈 信息 等 ， 然 后 对 客户 群 进行 细 分 。 

3) 整合 业务 的 流程 ， 提 高 自动 化 程度 ,减少 手工 干预 的 工作 。 加 强 数据 质量 、 查 询 匹 
配 、 数 据 整合 等 关键 环节 的 能 力 。 我 们 也 可 以 把 数据 质量 管理 工作 前 移 ， 保 证 数据 入 库 之 前 
的 质量 ， 可 以 采用 抽样 统计 与 逐条 数据 校 验 的 方式 ， 规 避 系 统 性 的 数据 错误 ， 作 为 数据 质量 
提升 的 策略 之 一 。 

举例 来 说 ， 我 们 可 以 根据 历史 数据 的 报 送 情况 ， 动 态 调整 抽样 和 统计 的 规则 ， 借 鉴 国外 
身份 信息 的 整合 经 验 ， 以 自然 人 为 单位 ， 作 为 整合 的 对 象 ， 利 用 个 人 姓名 、 证 件 号 码 、 地 址 
言 息 和 电话 号 码 进 行 整合 。 很 多 金融 机 构 因 为 质量 管理 手段 单一 ， 并 且 以 逐条 记录 校 验 为 
主 ， 所 以 效率 很 低 。 可 以 通过 建立 数据 质量 跟踪 和 反馈 机 制 ， 同 时 提供 相应 的 激励 措施 等 方 
法 提高 效率 。 

(2) 对 产品 服务 的 优化 

1) 首先 对 产品 服务 的 现状 进行 分 析 。 例 如 ， 判 断 一 些 金融 机 构 是 否 建立 了 以 市 场 化 为 
主 的 产品 服务 流程 体系 。 在 产品 服务 的 各 个 环节 之 间 是 否 存在 信息 共享 。 金 融 机 构 需 要 清晰 
的 服务 定位 。 通 过 不 断 优化 产品 体系 ， 改 善 客户 的 产品 体验 度 ， 完 善 服务 规范 体系 等 手段 达 
到 优化 的 目的 。 
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2) 通过 多 维度 的 分 析 金 融 机 构 的 特点 ， 对 客户 群 进行 细 分 ， 提 供 有 针对 性 的 差异 化 服 
务 ， 以 满足 金融 机 构 在 不 同业 务 场 景 下 的 信息 需求 。 对 于 金融 机 构 来 说 ， 它 们 应 该 重点 分 析 
对 外 可 以 提供 哪些 服务 ， 如 何 保证 对 外 产品 服务 的 标准 化 。 同 时 可 以 为 客户 提供 灵活 的 查询 
引 苟 ， 支 持 产品 的 组 装 等 方面 。 

(3) 对 产品 研发 流程 的 优化 

产品 研发 流程 主要 包括 : 理解 产品 设计 的 功能 ， 产 品 研 发 进度 情况 ， 市 场 的 动向 和 设计 
变更 决策 等 。 关 于 产品 研发 流程 的 优化 是 最 富有 挑战 性 的 工作 之 一 。 




















小 结 


。 金融 就 是 在 我 们 的 经 济 生活 中 ， 通 过 银行 、 证 券 机 构 等 中 介 ， 从 市 场 主体 中 募集 资 
金 ， 然 后 在 借贷 给 其 他 市 场 主体 的 活动 ， 可 以 把 金融 看 做 融资 、 投 资 和 资金 募集 等 三 
种 经 济 活动 。 

对 于 商业 银行 来 说 ， 它 有 大 量 的 客户 群 ， 可 以 吸收 社会 公众 存款 ， 资 金 实力 非常 雄 
厚 ， 抗 风险 的 能 力 比 较 强 。 同 时 银行 有 大 量 的 客户 信用 数据 ， 包 括 各 种 客户 信用 卡 消 
费 信 息 、 贷 款 信 息 、 还 款 信 息 和 信用 信息 等 。 

随 着 互联 网 技术 的 进步 ， 商 业 银行 通过 互联 网 融资 会 更 有 利 ， 因 为 商业 银行 本 身 具 有 
良好 的 信用 基础 和 声誉 ， 各 种 贷款 、 股 票 和 债券 都 可 以 通过 互联 网 进行 交易 。 同 时 也 
可 以 利用 互联 网 技术 解决 信息 不 对 称 的 问题 。 对 于 银行 来 说 ， 借 贷 业 务 仍然 是 银行 的 
核心 业务 ， 它 的 净利 息 收 入 占 到 70% 左右 。 

商业 银行 应 该 具备 的 能 力主 要 包括 对 客户 的 洞察 力 、 精 准 营 销 和 跨 渠 道 客户 管理 。 
金融 行业 的 数据 架构 一 般 包 括 以 下 几 个 部 分 : 数据 采集 层 、 产 品 加 工 层 和 对 外 服 
务 层 。 

从 数据 源 开始 ， 经 过 加 载 、 集 中 、 整 合 ， 以 及 对 外 服务 这 几 个 过 程 ， 可 以 将 整个 数据 
架构 横向 划分 成 : 源 数据 区 、 基 础 区 、 产 品 加 工区 和 产品 服务 区 。 各 个 区 域 都 相对 
独立 。 

数据 架构 是 企业 架构 的 重要 组 成 部 分 ， 帮 助 金融 行业 有 效 地 分 配 、 部 署 和 使 用 数据 ， 
实现 数据 的 合理 组 织 和 有 效 共享 ， 从 而 保证 数据 在 各 个 系统 之 间 的 一 致 性 、 完 整 性 和 
有 效 性 。 

在 当前 市 场 苑 争 激烈 和 商业 银行 业务 转型 的 大 背景 下 ， 商 业 银 行 正面 临 着 各 种 机 中 
和 挑战 。 利 用 商业 智能 技术 ， 可 以 大 大 提高 商业 银行 的 服务 水 平和 内 部 管理 水 平 。 
特别 是 在 数据 大 集中 的 背景 下 ， 商 业 智能 已 经 成 为 商业 银行 信息 化 建设 的 必然 选择 
这 

。 商业 智能 (BI) 是 对 各 种 信息 收集 、 管 理 和 分 析 的 过 程 ， 目 的 是 使 企业 的 决策 者 能 
获得 知识 和 洞察 力 。 商 业 智 能 一 般 由 数据 仓库 、 数 据 集 市 、 数 据 挖 据 和 在 线 分 析 等 部 
分 组 成 。 商 业 智 能 提高 了 企业 和 银行 的 管理 水 平 ， 强 化 了 对 风险 管理 和 产品 的 创新 
能 力 。 
金融 行业 商业 智能 的 实施 离 不 开 高 层 领导 的 重视 ， 同 时 需要 投入 大 量 的 资源 。 在 制定 
整体 规划 的 同时 ， 需 要 明确 各 个 阶段 的 实施 重点 。 可 以 按照 商业 智能 的 实施 方法 论 开 
了 74 






























































展 工作 ， 包 括 建立 数据 仓库 、 数 据 集 市 、 元 数据 管理 系统 、OLAP 等 。 

。 金融 行业 的 环境 分 析 主 要 包括 行业 的 发 展 趋势 、 拉 术 变 章 等 几 个 方面 。 

e 通过 对 国内 外 金融 机 构 先 进 经 验 的 分 析 ， 以 市 场 作为 驱动 力 ， 强 化 对 产品 的 创新 能 

和 对 外 服务 能 力 。 对 核心 的 竞争 优势 进行 分 析 ， 从 而 提高 自身 的 能 力 。 

。 对 于 金融 机 构 来 说 ， 它 的 核心 业务 流程 是 数据 采集 、 产 品 加 工 、 产 品 研 发 和 对 外 服 
务 。 其 中 数据 采集 和 产品 加 工 是 数据 流动 的 过 程 。 产 品 研发 是 从 产品 的 设计 、 研 发 ， 
一 直到 产品 上 线 的 过 程 。 对 外 服务 是 客户 申请 服务 到 服务 终止 的 过 程 。 
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第 13 音 ”电力 行业 数据 架构 和 商业 智能 案例 


本 章 目标 
通过 前 一 前 的 学 习 ， 读 者 已 经 掌握 了 金融 行业 背景 概述 、 金 融 行 业 的 数据 架构 、 传 统 金 
融 行 业 某 系统 的 数据 架构 案例 、 互 联网 金融 行业 的 数据 架构 案例 、 金 融 行 业 的 商业 智能 概 
述 、 金 融 行业 商业 智能 的 背景 和 作用 、 金 融 行 业 如何 实 施 商 业 智能 、 金 融 行业 的 业务 流程 和 
运营 模式 优化 等 内 容 。 

学 习 本 章 后 ， 读 者 将 掌握 : 

。 电力 行业 面临 的 挑战 

。 建设 电力 行业 企业 级 数据 仓库 的 因素 和 策略 

。 电力 行业 商业 智能 的 数据 架构 

。 电力 行业 商业 智能 系统 开发 流程 

。 数据 仓库 运 维 内 容 

。 电力 行业 数据 仓库 的 建设 方法 

。 商业 智能 运 维 组 织 架 构 

。 针对 电力 行业 的 数据 管理 

。 关于 电力 行业 的 数据 质量 管理 

。 关于 电力 行业 的 数据 标准 管理 

。 关于 电力 行业 的 数据 安全 管理 





























13.1 电力 行业 商业 智能 


1. 电力 行业 面临 的 挑战 

电力 行业 主要 面临 着 业务 挑战 和 技术 挑战 ， 如 图 13-1 所 示 。 

(1) 业务 挑战 

1) 电力 行业 的 分 析 系 统一 般 仅 提供 简单 的 报表 功能 ， 功 能 单一 ， 高 层 人 员 无 法 从 全 局 
的 角度 对 各 条 业务 线 进行 多 层次 的 综合 分 析 。 

2) 对 于 各 个 分 析 系 统 来 说 ， 它 们 又 集中 于 各 自 的 领域 ， 不 具备 跨 业 务 的 分 析 能 力 ， 存 
在 着 数据 不 一 致 的 现象 ， 不 能 有 效 地 发 挥 电力 行业 数据 资产 的 价值 。 

(2) 技术 挑战 

1) 分 析 型 系统 与 业务 生产 系统 耦合 性 较 强 ， 缺 乏 对 全 局 业务 分 析 的 支持 ， 对 于 相同 业 
务 数据 ， 可 能 会 存在 不 同 的 版 本 。 

2) 各 个 业务 系统 管理 着 各 自 的 数据 ， 数 据 的 业务 含义 在 各 个 部 门 之 间 可 能 存在 不 一 致 
的 解释 ， 数据 质量 也 相对 较 低 。 
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业务 挑战 技术 挑战 





图 13-1 电力 行业 主要 面临 着 业务 挑战 和 技术 挑战 


2. 建设 电力 行业 企业 级 数据 仓库 的 因素 和 策略 
建设 电力 行业 企业 级 数据 仓库 的 因素 主要 包括 业务 因素 和 技术 因素 ， 如 图 13-2 所 示 。 




















图 13-2 建设 电力 行业 企业 级 数据 仓库 的 因素 


e 业务 因素 
在 业务 上 ， 缺 乏 统一 的 报表 与 指标 规范 体系 ， 缺 少 明确 的 数据 责任 体系 。 
。 技术 因素 


缺少 规范 的 数据 架构 ， 导 致 数据 分 布 的 不 合理 和 模型 的 不 一 致 。 同 时 数据 管理 不 规范 ， 
缺乏 企业 级 的 数据 整合 和 管控 机 制 。 

3. 电力 行业 企业 级 数据 仓库 的 建设 策略 

1) 电力 行业 对 数据 分 析 的 需求 有 一 定 的 差异 性 ， 对 于 分 析 应 用 ， 人 允许 各 个 省 市 存在 个 
性 化 的 内 容 。 

2) 对 于 电力 行业 企业 级 数据 仓库 的 核心 模型 ， 应 该 有 一 个 统一 的 数据 标准 ， 它 可 以 帮 
助 各 个 省 市 建立 统一 的 数据 管理 体系 ， 通 过 试点 地 区 的 成 功 经 验 推广 ,减少 其 他 省 市 数据 仓 
库 实施 的 风险 。 

4. 电力 行业 商业 智能 的 数据 架构 

电力 行业 商业 智能 的 数据 架构 包括 源 数 据 层 、 数 据 抽取 层 、 数 据 存 储 层 、 数 据 访问 层 和 
用 户 访 问 层 。 

。 源 数 据 层 

主要 包括 各 个 业务 系统 的 数据 。 

。 数据 抽取 层 

主要 包括 抽取 、 清 洗 、 转 换 和 加 载 。 

。 数据 存储 层 

主要 包括 ODS、 数 据 仓 库 和 数据 集 市 。 

。 数据 访问 层 





了 77 


主要 工作 流程 包括 用 户 应 用 通过 Web 浏览 器 提交 数据 请 求 ，Web 浏览 器 通过 Internet 发 
送 HTTP 请 求 给 Web 服务 器 。 数 据 请 求 发 送 给 应 用 服务 器 。 获 得 数据 后 以 HTTP response 的 
形式 发 送 给 用 户 。 

e 用 户 访问 层 

主要 包括 : 报表 、 查 询 、 在 线 分 析 和 知识 发 现 等 。 

电力 行业 商业 智能 的 数据 架构 的 实现 如 图 13-3 所 示 。 




















数据 抽取 层 数据 存储 层 数据 访问 层 户 访 问 层 
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在线 分 析 
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图 13-3 电力 行业 商业 智能 的 数据 架构 的 实现 
5. 电力 行业 商业 智能 系统 开发 流程 
电力 行业 商业 智能 系统 的 开发 流程 主要 包括 计划 ， 分 析 ， 设 计 及 开发 ， 测 试 ， 部 署 ， 如 
图 13-4 所 示 。 








电力 行业 商业 智能 系统 二 


开发 流程 








13-4 ”电力 行业 商业 智能 系统 的 开发 流程 











e 计划 
计划 包括 复查 期 望 的 目标 评估 系统 现状 能 力 ， 定 义 系统 建设 方案 等 内 容 。 
。 分 析 
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分 析 包括 对 高 层 需求 的 确认 ， 定 义 数 据 分 析 的 需求 ， 建 立 概念 模型 ， 评 估 系 统 建 设 风 
定义 开发 和 执行 环境 的 需求 ， 制 定 UAT 计划 和 性 能 测试 计划 等 内 容 。 
e 设计 及 开发 
设计 及 开发 包括 制定 报表 开发 规范 ， 建 立 逻 辑 模 型 和 物理 模型 ， 设 计 ETL 的 开发 流程 ， 
部 署 ETL 开发 程序 的 测试 环境 等 内 容 。 

。 测试 

完成 对 商业 智能 的 产品 测试 、 性 能 测试 和 UAT 测试 等 。 

。 部 署 

评估 部 署 条 件 ， 完 成 数据 转换 ， 最 后 发 布 应 用 程序 。 

6. 数据 仓库 运 维 内 容 

电力 行业 数据 仓库 系统 的 运 维 内容 主 要 包括 : 备份 与 恢复 ， 归 档 与 恢复 ， 系 统 监控 ， 容 
量规 划 ， 人 性 能 管理 ， 如 图 13-5 所 示 。 


险 


电力 行业 数据 仓库 系统 
的 运 维 内 容 











图 13-5 电力 行业 数据 仓库 系统 的 运 维 内 容 











。 备份 与 恢复 

数据 仓库 的 定期 备份 与 恢复 是 数据 仓库 运 维 的 重要 环节 之 一 ， 它 需要 满足 用 户 对 于 业务 
恢复 执行 频率 与 速度 的 要 求 。 这 些 流程 必须 满足 用 户 的 可 用 性 需求 和 数据 的 线性 增长 要 求 。 

。 归档 与 恢复 

对 于 数据 仓库 运 维 人 员 来 说 ， 数 据 的 归档 活动 经 常 被 忽略 ,但 是 数据 量 不 断 增加 ， 使 得 
数据 仓库 需要 增加 额外 的 存储 设备 ， 增 加 了 系统 的 复杂 性 。 正 是 上 述 原 因 ， 使 得 数据 仓库 不 
能 永久 地 保存 数据 ， 需 要 将 历史 数据 归档 到 离线 存储 设备 上 。 

。 系统 监控 

对 于 数据 仓库 来 说 ， 系 统 的 监控 工作 更 加 复杂 ， 很 多 数据 仓库 系统 的 建设 都 忽略 了 对 数 
据 库 使 用 情况 的 监控 ， 这 些 监控 信息 可 以 帮助 系统 管理 员 对 数据 库 进 行 调整 ， 以 满足 对 现在 
和 未 来 数据 容量 的 需求 。 

。 容量 规划 

对 于 数据 仓库 来 说 ，CPU 、 内 存 、 硬 盘 和 网 络 等 硬件 资源 的 容量 计算 是 非常 关键 的 工 
作 。 在 数据 仓库 系统 中 ， 硬 件 开 销 最 大 。 特 别 是 服务 器 、 存 储 等 基础 设施 的 成 本 很 大 ， 硬 件 
成 本 直接 影响 了 企业 IT 系统 的 总 体 成 本 ， 所 以 做 好 系统 容量 的 计算 是 降低 IT 系统 的 成 本 ， 
提高 运营 绩效 的 重要 途径 之 一 。 
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。 性 能 管理 

性 能 是 数据 仓库 架构 中 每 个 组 件 都 需要 考虑 的 问题 。 在 架构 过 程 中 需要 考虑 系统 的 性 能 
问题 ， 例 如 系统 负载 、 索 引 构建 、 大 文件 传输 、 用 户 查询 响应 时 间 、 备 份 与 恢复 时 长 等。 
13.2 电力 行业 相关 商业 智能 案例 


1. 电力 行业 数据 仓库 的 建设 方法 
数据 仓库 开发 应 实施 以 全 局 的 观点 为 基础 ， 业 务 需求 为 导向 的 滚动 式 开 发 方法 ， 如 图 
13-6 所 示 。 


企业 数据 模型 











医 








13-6 ”电力 行业 数据 仓库 的 建设 方法 


关于 省 市 级 的 数据 仓库 演进 方法 是 以 数据 仓库 分 析 能 力 和 数据 整合 能 力 的 提高 为 主线 
索 ， 提 升 数据 管控 能 











， 改 进 数 据 质量 。 
1) 首先 采用 Quick Win ( 速 赢 ) 方式 ， 建 立领 导 查 询 系 统 ， 如 图 13-7 所 示 。 
ETL 








业务 藉 统 


领导 查询 
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| 
= 
三 一 ODS j= 
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图 13-7 Quick Win ( 速 赢 ) 方式 


2) 然后 ， 建 立 数据 仓库 ， 并 且 对 数据 仓库 不 断 地 进行 完善 和 改进 。 挑 选 重要 的 主题 进 
行 数据 仓库 建设 ， 提 供 联机 分 析 及 综合 报表 ， 如 图 13-8 所 示 。 


Wl 











ETL 


3) 数据 仓库 优化 。 在 优化 阶段 ， 数 据 仓 库 已 经 基本 建成 。 在 此 阶段 ,数据 仓库 可 以 提 
供 更 全 面 的 数据 分 析 以 及 数据 展现 功能 ， 包括 对 数据 进行 更 深层 次 的 挖掘 ， 如 图 13-9 
所 示 。 
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| 领导 查询 










图 13-8 建立 数据 仓库 并 不 断 完善 和 改进 








数据 挖掘 


| 领导 查询 














图 13-9 数据 仓库 优化 

2. Quick Win ( 速 启 ) 阶段 的 工作 任务 和 效果 

(1) 阶段 任务 

功能 : 实现 综合 分 析 和 领导 查询 。 

技术 : 建立 数据 仓库 技术 架构 ， 包 括 开发 环境 、 执 行 环境 和 运 维 环境 。 

管理 : 初步 统一 编码 ， 使 数据 集 市 中 的 标准 一 致 ， 对 于 地 市 级 上 报 的 指标 统一 口径 。 

(2) 效果 

该 阶段 基本 实现 综合 分 析 和 统计 功能 ， 包 括 指 标的 查询 和 统计 ， 表 现 方式 主要 是 普通 报 
表 、 图 形 和 仪表 盘 等 。 但 是 对 明细 数据 的 分 析 能 力 有 限 ， 缺 乏 丰富 的 多 维 分 析 能 力 ， 从 整个 
架构 上 看 ， 只 有 数据 集 市 ， 没 有 建立 企业 级 的 数据 仓库 。 整 体 的 架构 在 这 个 阶段 基本 形成 。 
数据 集 市 中 的 数据 可 以 自动 更 新 。 

3. 数据 仓库 建立 及 完善 阶段 的 工作 任务 和 效果 

(1) 阶段 任务 

功能 : 完善 综合 分 析 和 领导 查询 。 

技术 : 在 数据 仓库 中 建立 客户 、 产 品 、 财 务 主题 域 的 物理 模型 ， 将 数据 源 转化 后 进入 到 
数据 仓库 中 ， 实 现 数据 仓库 数据 到 数据 集 市 的 转换 ， 对 于 数据 集 市 中 的 指标 ， 逐 步 转向 由 数 
据 仓 库 计 算得 来 。 
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管理 : 建立 数据 质量 管理 团队 、 方 法 和 流程 ， 对 数据 质量 进行 分 析 ， 实 施 数据 安全 的 分 
级 策略 ， 使 用 户 对 数据 具有 不 同 的 访问 权限 。 同 时 建立 数据 标准 管理 团队 ， 对 数据 标准 进行 
管理 维护 ， 初 步 具 有 应 对 数据 标准 需求 的 能 力 。 在 此 基础 上 ， 建 立 数据 仓库 运 维 架构 ， 包 括 
组 织 、 流 程 、 方 法 等 内 容 。 

(2) 效果 

综合 分 析 和 统计 中 的 指标 可 以 从 数据 仓库 中 统计 得 来 ， 指 标的 准确 度 和 自动 化 程度 得 到 
提高 。 企 业 级 数据 仓库 初步 形成 ,并且 具备 一 定 的 数据 整合 能 力 ， 为 分 析 提 供 明细 和 汇总 的 
数据 。 例 如 ， 通 过 对 电量 、 电 费 、 电 价 的 分 析 ， 提 高 电量 的 需求 预测 和 价格 制定 能 力 。 同 时 
可 以 全 面 了 解 客户 的 电力 消费 和 缴费 情况 ， 帮 助 制定 相关 的 政策 和 服务 措施 。 它 可 以 基于 
OLAP 分 析 技 术 做 更 深入 的 数据 分 析 ， 数 据 质 量 逐 步 得 到 改善 ， 保 证 数据 仓库 系统 运行 时 的 
高 可 用 性 。 

4. 数据 仓库 优化 阶段 的 工作 任务 和 达到 的 效果 

(1) 阶段 任务 

功能 : 完善 综合 分 析 及 领导 查询 ， 完 成 剩余 的 数据 分 析 功 能 。 

技术 : 在 数据 仓库 中 建立 其 他 主题 域 的 物理 模型 ， 建 立 数据 源 到 数据 仓库 的 映射 关系 ， 
将 数据 源 进 行 转换 后 再 送 入 到 数据 仓库 中 。 在 此 基础 上 ， 建 立 其 他 的 数据 集 市 ， 并 且 实 现 数 
据 仓库 到 数据 集 市 的 转换 ， 使 集 市 中 的 指标 ， 全 部 转向 由 数据 仓库 计算 得 来 。 

管理 :优化 数据 标准 维护 流程 、 数 据 质量 管理 流程 ， 同 时 优化 数据 仓库 运 维 能 力 ， 建 立 
数据 生命 周期 。 

(2) 效果 

对 于 综合 分 析 和 更 多 的 指标 可 以 从 数据 仓库 中 统计 得 来 ， 指 标的 准确 度 和 自动 化 程度 得 
到 优化 和 提高 。 企 业 级 数据 仓库 已 经 形成 ， 具 备 数据 整合 能 力 ， 为 数据 分 析 提 供 充分 支持 。 
数据 质量 进一步 改善 ， 在 源头 对 数据 质量 进行 管理 ， 使 运 维 效 率 得 到 提高 。 

其 中 ， 电 力行 业 商 业 智 能 组 织 架 构 如 图 13-10 所 示 ， 主 要 包括 项 目 领 导 小 组 、 项 目 管 
理 办 公 室 、 专 家 组 、 质 量 监控 组 、 项 目 经 理 /项 目 实 施 管理 团队 、 架 构 设 计 组 和 开发 测试 组 。 


项 目 领导 小 组 












































项 
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电力 行业 商业 智能 的 任务 流程 如 图 13-11 所 示 ， 主 要 包括 计划 阶段 、 分 析 阶 段 、 设 计 
阶段 、 开 发 阶段 、 测 试 阶段 和 部 署 阶段 。 
计划 阶段 


"ag. 


开发 阶段 
图 13-11 电力 行业 商业 智能 的 任务 流程 
































1) 计划 阶段 
计划 阶段 主要 包括 定义 期 望 目 标 、 评 估 现 状 能 力 、 定 义 方案 和 定义 交付 策略 ， 如 图 13-12 


所 示 。 
计划 阶段 ) 














图 13-12 ”计划 阶段 








。 定义 期 望 目标 

包括 愿景 及 业务 目标 ， 确 认 目 标 业 务 流 程 ， 定 义 方案 蓝图 等 。 

e。 评估 现状 能 

评估 当前 业务 流程 和 当前 的 能 力 、 性 能 、 风 险 等 内 容 ， 分 析 当 前 技术 架构 、 组 织 架 构 、 
数据 管控 的 现状 。 

。 定义 方案 

定义 应 用 解决 方案 、 技 术 解 决 方案 、 业 务 流程 变更 解决 方案 和 运 维 解决 方案 。 

。 定义 交付 策略 

定义 开发 策略 、 测 试 策略 、 试 点 策略 、 部 署 策 略 、 元 数据 管理 和 数据 管控 策略 。 

2) 分 析 阶 段 

分 析 阶 段 主要 包括 定义 数据 分 析 需 求 、 建 立 概念 数据 模型 、 定 义 用 户 访问 需求 、 评 估 风 
险 、 定 义 开 发 运行 环境 需求 、 制 定 UAT 计划 和 性 能 测试 计划 ， 如 图 13-13 所 示 。 
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定义 数据 分 析 需 求 
建立 概念 数据 模型 
定义 用 户 访问 需求 


图 评估 风险 5 





定义 开发 运行 环境 需求 





医 制定 UAT 计划 和 性 能 测试 计划 和 


图 13-13 分析 阶段 














3) 设计 阶段 
设计 阶段 主要 包括 定义 ETL 技术 整合 方案 和 报表 详细 规范 ， 建 立 逻 辑 数据 模型 ， 对 设 
计 开发 和 运行 环境 的 准备 ， 制 定 测试 计划 ， 如 图 13-14 所 示 。 


定义 ETL 技术 整合 方案 和 报 建立 逻辑 数据 模型 
表 详 细 规 范 





对 设计 开发 和 运行 环 
境 的 准备 








图 13-14 设计 阶段 











4) 开发 阶段 
开发 阶段 主要 包括 制定 ETL 开发 流程 ， 前 台 组 件 开 发 ， 物 理 数据 模型 开发 ， 开 发 、 运 

行 环境 的 准备 ，ETL、 报 表 组 件 测试 计划 ， 如 图 13-15 所 示 。 
1. 制定 ETL 开发 流程 






4. 开发 、 运 行 环境 的 准备 





2 


下 
落 


和 人 台 组 件 开 发 


和 5. ETL、 报 表 组 件 测试 计划 
Wg 


3. 物理 数据 模型 开发 





图 13-15 开发 阶段 
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其 中 ETL 开发 流程 包括 数据 映射 、 逻 辑 设 计 、 调 度 设 计 、 编 码 等 。 
5) 测试 阶段 
测试 阶段 主要 包括 组 件 测试 、 产 品 测试 、 性 能 测试 、UAT 测试 ， 如 图 13-16 所 示 。 


测试 阶段 ) 








到 13-16 测试 阶段 











e 组 件 测试 

组 件 测试 包括 编写 组 件 测试 的 脚本 、 发 布 测试 环境 、 执 行 组 件 测试 ， 最 后 根据 测试 结 
及 时 通报 错误 并 修复 。 

e 产品 测试 

产品 测试 包括 确认 产品 测试 的 周期 、 编 写 测 试 脚本 、 发 布 测 试 环境 、 执 行 产 品 测试 ， 最 
后 根据 测试 结果 及 时 通报 错误 并 修复 。 

。 性 能 测试 

性 能 测试 包括 确认 性 能 测试 周期 、 编 写 测试 脚本 、 发 布 性 能 测试 环境 、 执 行 性 能 测试 ， 
最 后 根据 测试 结果 及 时 通报 错误 并 修复 。 

e UAT 测试 

主要 包括 对 用 户 培 训 手 册 、 测 试 脚本 、 测 试 场景 、 测 试 策略 和 测试 用 户 的 准备 。 

6) 部 署 阶段 

部 署 阶段 主要 包括 评估 部 署 条 件 、 完 成 数据 
转换 和 部 署 测试 、 发 布 应 用 ， 如 图 13-17 所 示 。 

其 中 评估 部 署 条 件 主 要 是 评估 应 用 程序 、 技 A 
术 架 构 、 部 署 站 点 和 基础 架构 的 准备 情况 ， 同 时 和 部 署 测试 
制定 对 偶发 事件 的 应 急 处 理 机 制 ， 详 细 列 出 每 一 
阶段 的 检查 点 。 完 成 数据 转换 主要 包括 清洗 数据 、 
创建 数据 备份 、 执 行 数据 转换 ， 最 后 验证 转换 后 
数据 的 正确 性 。 完 成 部 署 测试 主要 包括 执行 部 署 
测试 、 验 证 结果 、 结 果 反 馈 、 错 误 修复 ,最 后 将 
部 署 结果 通知 开发 和 实施 团队 。 

5. 电力 行业 商业 智能 运 维 组 织 架构 

电力 行业 商业 智能 运 维 组 织 架构 层次 一 般 为 运 维 中 心 、 服 务 支 持 、 技 术 支 持 等 团队 。 例 
如 ， 服 务 支 持 包 括 设施 支持 人 员 、 流 程 管 理 人 员 ; 技术 支持 团队 包括 商业 智能 (BI) 支持 

325 


评估 部 署 条 件 








图 13-17 部 署 阶段 

















人 员 、 网 络 支 持 人 员 、 存 储 支 持 人 员 、 操 作 系 统 文 持 人 员 ， 如 图 13-18 所 示 。 










服务 支持 团队 


设施 支持 人 员 



















存储 支持 人 员 





操作 系统 支持 
人 员 


图 13-18 商业 智能 运 维 组 织 架 构 


6. 电力 行业 商业 智能 基础 环境 搭建 
(1) 网 络 容量 规划 方法 








关于 电力 行业 数据 仓库 的 网 络 容量 规划 ， 可 以 分 成 以 下 三 个 阶段 : 业务 需求 规划 、 制 定 


多 


量规 划 和 容量 规划 执行 。 
第 一 阶段 : 业务 需求 规划 。 


中 











第 一 阶段 主要 包括 识别 关键 业务 ， 识 别 造 成 影响 的 技术 因素 ， 制 定数 据 收集 清单 ， 制 定 
基础 设施 配置 清单 ， 识 别 约束 条 件 和 限制 条 件 ， 安 装 和 配置 数据 收集 工具 ， 对 确认 的 数据 指 


标 进行 收集 等 内 容 ， 如 图 13-19 所 示 。 


im nn 


识别 造成 影响 的 技术 








区 制定 数据 收集 清单 = 
间 制定 基础 设施 配置 清单 | 
识别 约束 条 件 和 限制 条 件 


闻 安装 和 配置 数据 收集 工具 | 
对 确认 的 数据 指标 进行 收集 


图 13-19 
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业务 需求 规划 


第 二 阶段 : 制定 容量 规划 。 
第 二 阶段 主要 包括 确定 容量 规划 方法 ， 使 用 不 同 的 容量 模型 ， 决 定 当 前 和 未 来 容量 管理 
的 优先 级 ， 提 出 容量 管理 的 改进 计划 ， 如 图 13-20 所 示 。 


确定 容量 规划 方法 。“ 电 二 用 不 同 的 容量 模 卉 


决定 当前 和 未 来 容量 “。 ”提出 容量 管理 
、、 管理 的 优先 级 


p 的 改进 计划 





13-20 制定 容量 规划 


第 三 阶段 : 容量 规划 执行 。 
第 三 阶段 主要 包括 审核 容量 规划 方法 ， 建 立 沟通 机 制 ; 建立 容量 规划 的 行动 方案 ;执行 
容量 规划 ;跟踪 容量 规划 的 结果 ， 及 时 调整 规划 ， 如 图 13-21 所 示 。 


审核 容量 规划 方法 ， 


建立 沟通 机 制 一 上 





建立 容量 规划 的 行动 方案 















| pp i/ 
E | 容量 规划 的 结果 ， 
执行 容量 规划 =- 面 | el 天 人 


13-21 容量 规划 执行 








(2) 数据 中 心服 务 器 逻辑 拓扑 图 

关于 电力 公司 数据 中 心服 务 器 逻辑 拓扑 如 图 13-22 所 示 。 

(3) 数据 仓库 相关 存储 估算 

数据 仓库 存储 容量 包括 4 个 部 分 : 数据 仓库 容量 、 数 据 集 市 容量 、ODS 容量 和 备份 空 
间 ， 如 图 13-23 所 示 。 

1) 数据 仓库 容量 : 包括 数据 、 索 引 和 归档 日 志 等 信息 。 

2) 数据 集 市 容量 : 包括 数据 、 索 引 和 归档 日 志 等 信息 。 

3) 0DS 容量 : 包括 数据 、 索 引 和 归档 日 志 等 信息 。 

4) 备份 空间 : 主要 包括 数据 仓库 、 数 据 集 市 、ODS 在 磁盘 阵列 上 的 备份 空间 。 
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ODS 月 


R 务 器 集群 


ETL 服务 器 集群 分 析 服务 器 集群 Web 上 月 


R 务 器 集群 











13-22 ”电力 公司 数据 中 心服 务 器 逻辑 拓扑 图 














备份 空间 








史 








13-23 ”数据 仓库 总 体 存 储 





对 于 数据 仓库 的 容量 估算 ， 举 例 见 表 13-1。 
表 13-1 数据 仓库 容量 估算 









































编号 空间 用 途 固定 容量 运算 说 明 
1 数据 库 系统 
2 数据 库 系 统 软件 4GCB 固定 
3 数据 库 系 统 数据 4GB 固定 
4 数据 库 回 深 段 16GB 国定 
5 数据 库 临时 表 空 间 10 GB 国定 
6 数据 仓库 数据 
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( 续 ) 






































编号 空间 用 途 固定 容量 运算 说 明 

Al 日 前 数据 1 xK (K 为 业务 数据 仓库 是 企业 级 范围 内 经 过 整合 后 的 存储 体 ， 容 量 
数据 总 量 ) 应 该 等 于 或 者 大 于 业务 数据 的 总 量 

A2 目前 索引 0.3xK 数据 仓库 的 索引 一 般 为 数据 仓库 数据 量 的 30% 左右 

A3 | 数据 仓库 目前 数据 总 量 Al + A2 

A4 每 年 增长 数据 总 量 A3 x N% N 为 业务 数据 年 增长 率 

A5 10 年 的 数据 仓库 总 量 A3 +A4 x10 











对 于 数据 集 市 的 容量 估算 ， 举 例 见 表 13-2。 
表 13-2 数据 集 市 容量 估算 
































































































































编号 空间 用 途 固定 容量 运算 说 明 
1 数据 库 系统 
2 数据 库 系统 软件 4GB 国 
3 数据 库 系 统 数据 4GB 国 
4 数据 库 回 滚 段 16GB 固定 
5 数据 库 其 他 数据 10GB 固定 
6 数据 库 备份 临时 空间 16GB 国定 
7 数据 集 市 数据 
Bl 目前 数据 0.4xAl 数据 集 市 的 当前 数据 容量 约 等 于 数据 仓库 当前 数据 的 40% 
B2 目前 索引 0.5 xBl 数据 集 市 的 索引 约 占 数据 量 的 50% 
B3 | 数据 集 市 当前 数据 总 量 Bl + B2 
B4 每 年 增长 数据 总 量 B3 x N% 
B5 10 年 的 集 市 总 量 B3+B4x10 

















表 13-3 ”ODS 容量 估算 










































































编 号 空间 用 途 固定 容量 运算 说 明 
1 数据 库 系统 
2 数据 库 系统 软件 4GB 固定 
3 数据 库 系 统 数 据 4GB 固定 
4 数据 库 回 滚 段 16GB 固定 
5 数据 库 其 他 数据 10GB 固定 
6 数据 库 备 份 临 时 空间 16GB 固定 
7 ODS 数据 
Cl 目前 数据 Kx5% 5% : 日 数据 变动 量 占 业务 数据 总 量 百分比 
C2 目前 索引 0.2 xCl ODS 的 索引 约 占 数据 量 的 20% 
C3 ODS 当前 数据 总 量 Cl1 + C2 
C4 每 年 增长 数据 总 量 C3 x N% 
C5 10 年 的 ODS 总 量 C3+C4x10 
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关于 磁盘 备份 空间 的 需求 ， 见 表 13-4， 其 中 全 备份 不 保存 在 磁盘 阵列 上 。 
表 13-4 磁盘 备份 空间 的 需求 




















应 用 服务 器 容 量 增 量 备份 频率 增 量 备份 数据 量 一 级 备份 〈 磁 盘 阵 列 ) 

数据 仓库 A5 每 日 A5 x5% A5 x5% x7+A5Sx0 

数据 集 市 B5 每 日 B5 x5% B5 x5% x7+B5 x0 
ODS C5 每 日 C5 x5% C5 x5% x7 +C5 x0 

















(4) 电力 行业 商业 智能 系统 相关 服务 器 描述 见 表 13-5。 
表 13-5 电力 行业 商业 智能 系统 相关 服务 器 





























































































































服 务 器 的 说 明 
履 据 邹 库 服 务 器 。 | 日 的 是 提供 数据 仓库 数据 的 存储 、 计 算 、| 要 求 数据 的 存储 容量 大 ， 复 杂 的 数据 查询 可 能 
和 查询 、 汇 总 等 功能 会 影响 CPU 、 内 存 、L0 的 整体 性 能 
Oe 数据 访 问 较 多 ， 需 要 的 存储 容量 较 大 ， 复 杂 的 
四 县 扯 :人 对 市 凑 握 所 . ， ， 
数据 集 市 服务 器 。 | 日 的 是 是 做 玫 扣 集 市 玫 虽 的 有 俏 、 计 算 、| 数据 查询 可 能 会 影响 CPU、 内 存 、1/0 的 整体 
查询 、 汇 总 等 功能 性 能 
ee rr 数据 访问 较 多 ， 需 要 的 存储 容量 较 不 ， 复 杂 的 
ODS 服务 器 | ,日 的 是 提供 ODS 数据 的 存储 、 计 算 、 查 | 数据 查询 可 能 会 影响 CPU、 内 存 、1/0 的 整体 
询 、 汇 总 等 功能 性 能 
es 安装 ETL 软件 ， 提 供 数据 抽取 、 清 洗 、| ”因为 聚合 、 计 算 、 匹 配 等 操作 ， 所 以 需要 高 性 
转换 功能 能 的 CPU 和 内 存 
ee 安装 商业 智能 软件 ， 同 时 提供 各 种 分 析 、| 。 因为 有 大 量 并 发 用 户 的 请 求 和 各 种 逻辑 处 理 ， 
报表 、 查 询 等 功能 所 以 需要 高 性 能 的 CPU 和 内 存 
因为 有 大 量 并 发 用 户 的 请 求 和 多 个 在 线 的 Web 
eb 服 的 是 A 户 端 的 请 二 
Web 服 务 稀 目的 是 处 理 Web 客户 端的 请 求 有 务 请 求 ， 所 以 需要 高 性 能 的 CPU 和 内 存 











7. 电力 行业 数据 仓库 建设 难点 
电力 行业 数据 仓库 建设 的 难点 主要 包括 缺乏 统一 的 数据 规划 、 缺 乏 统一 的 数据 管理 


标准 体系 、 缺 乏 统一 的 编码 管理 、 缺 乏 对 数据 仓库 建设 的 验证 过 程 等 方面 ， 如 图 13-24 
所 示 。 
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缺乏 统一 的 数据 
管理 标准 体系 


缺乏 对 数据 仓库 
建设 的 验证 过 程 





。 缺乏 统一 的 数据 规划 

电力 行业 下 级 单位 缺乏 统一 的 标准 体系 。 因 为 各 自 的 建设 ,所 以 很 容易 形成 信息 孤岛 。 

。 缺乏 统一 的 数据 管理 标准 体系 

电力 行业 总 部 层面 缺乏 统一 的 数据 管理 标准 体系 ， 没 有 对 应 的 管理 机 构 和 方法 去 协调 新 
增 的 数据 需求 。 

。 缺乏 统一 的 编码 管理 

电力 行业 缺乏 统一 的 编码 管理 ， 导 致 数据 存在 不 统一 、 不 完整 的 现象 。 同 时 数据 集成 的 
成 本 很 高 ， 数 据 质量 偏 低 。 

。 缺乏 对 数据 仓库 建设 的 验证 过 程 

电力 行业 普遍 缺乏 对 数据 仓库 建设 的 验证 过 程 ， 包 括 对 试点 单位 的 推广 和 建立 相应 的 管 
理 机 制 等 ， 提 高 了 整个 电力 行业 数据 仓库 建设 的 风险 概率 。 

8. 数据 仓库 的 总 体 建设 策略 建议 

1) 电力 行业 省 级 单位 对 数据 分 析 的 需求 具有 一 定 差异 性 。 除 了 有 整个 电力 行业 共性 统 
一 的 内 容 ， 也 允许 存在 个 性 化 的 内 容 ， 我 们 在 技术 架构 统一 的 前 提 下 ， 人 允许 不 同 的 省 级 单位 
使 用 不 同 的 平台 软件 。 

2) 电力 公司 总 部 对 数据 仓库 的 建设 应 该 有 一 个 统一 的 数据 标准 体系 ， 它 可 以 帮助 省 级 
单位 建立 各 自 的 数据 管理 体系 ， 保 证 总 部 和 省 级 单位 数据 的 可 用 性 。 

3) 可 以 通过 对 试点 省 级 单位 的 成 功 推广 ,减少 其 他 单位 实施 数据 仓库 的 风险 ， 也 就 是 
通过 上 典型 成 功 案例 经 验 的 指导 ， 在 全 国 范 围 内 进行 数据 仓库 建设 。 

总 之 ， 电 力行 业 数据 仓库 的 实施 策略 是 以 降低 风险 为 原则 ， 通 过 试点 建设 积累 经 验 和 方 
法 ， 形 成 统一 的 数据 模型 标准 、 管 控 方法 和 数据 仓库 体系 架构 ， 然 后 向 其 他 省 级 单位 推广 。 
这 样 可 以 保证 整个 电力 行业 数据 仓库 建设 的 有 序 开展 。 

举例 来 说 ， 首 先 通过 试点 的 建设 ， 对 数据 模型 进行 规划 ， 提 供 逻 辑 模型 和 物理 模型 ， 制 
定数 据 标准 管理 机 制 ， 建 立 数据 仓库 体系 架构 和 数据 质量 管理 策略 。 

然后 经 过 一 系列 的 经 验 验 证 ， 形 成 统一 的 数据 模型 标准 、 数 据 仓库 统一 体系 架构 以 及 各 
种 数据 标准 管理 机 制 等 。 

最 后 进行 宣传 推广 和 执行 督导 。 数 据 仓库 的 开发 流程 是 以 业务 需求 驱动 为 导向 的 滚动 式 
开发 ， 以 全 局 观点 为 基础 的 不 断 完善 的 闭环 流程 ， 如 图 13-25 所 示 。 





























( 经验 验证 “) 





图 13-25 数据 仓库 的 总 体 建 设 策略 建议 
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13.3 电力 行业 数据 架构 


电力 总 公司 ODS 的 功能 与 省 电力 公司 的 ODS 相同， 主要 区 别 在 于 数据 源 的 不 同 。 总 公 
司 的 ODS 数据 源 主要 是 部 署 在 电力 公司 总 部 的 业务 系统 数据 源 。 电 力 总 公司 数据 仓库 的 数 
据 源 主要 包括 电力 公司 总 部 业务 系统 的 明细 数据 、 省 电力 公司 数据 仓库 上 报 的 数据 等 。 

电力 总 公司 的 数据 集 市 主要 基于 企业 宏观 发 展 的 分 析 应 用 ， 包 括 可 以 跨 系 统 、 跨 省 市 地 
对 数据 进行 全 面 宏观 的 分 析 ， 同 时 也 聚焦 于 企业 的 管理 。 省 电力 公司 的 数据 仓库 主要 基于 对 
省 级 单位 的 数据 整合 和 历史 数据 存储 。 这 些 数 据 主要 是 细节 性 的 、 低 级 别 的 信息 。 根 据 分 析 
需求 ， 建 立 汇总 数据 。 同 时 为 数据 集 市 提供 整合 后 的 、 高 质量 的 数据 。 

省 电力 公司 的 数据 集 市 是 针对 特定 的 、 某 个 主题 域 的 数据 集合 。 这 些 数据 可 以 快速 地 被 
访问 。 电 力行 业 总 体 的 数据 架构 如 图 13-26 所 示 。 














开心 证 过 廿 





数据 交换 平台 


省 业务 系统 














开心 过 是 全 








地 市 业务 系统 Eg 缓冲 区 和 数据 仓库 


型 俏 过 是 起 


图 13-26 电力 行业 总 体 的 数据 架构 
1. 针对 电力 行业 的 数据 管理 
数据 管理 是 数据 架构 的 基础 ， 它 决定 了 数据 的 可 用 性 和 价值 。 
1) 数据 管理 保证 数据 的 质量 ， 确 保 数 据 的 可 用 性 。 
2) 数据 管理 将 数据 、 数 据 使 用 者 、 数 据 的 管理 机 构 整合 到 一 起 。 
3) 数据 管理 的 内 容 主 要 包括 数据 质量 管理 、 数 据 标准 管理 和 数据 安全 管理 ， 如 图 13-27 
所 示 。 

















图 13-27 针对 电力 行业 的 数据 管理 
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4) 数据 管理 主要 考虑 流程 、 技 术 和 组 织 。 


2. 数据 质量 管理 

数据 质量 管理 主要 包含 以 

(1) 数据 质量 管理 定义 

通过 制定 电力 公司 数据 质 
量 产生 的 根源 ， 利 用 相关 的 


渍 汉 


也 


(2) 数据 质量 管理 目标 

分 析 业 务 需求 对 于 数据 质 
过 数据 质量 的 不 断 提升 和 改进 

(3) 数据 质量 管理 原则 


下 几 个 方面 的 内 容 : 


量 的 衡量 指标 ， 评 佑 数据 在 使 用 过 程 中 的 质量 问题 。 寻 找 数据 
工作 流程 解决 数据 质量 问题 ， 以 保证 电力 公司 的 数据 质量 不 断 





量 管理 的 要 求 ， 降 低 因 为 数据 质量 问题 而 导致 的 决策 风险 ， 通 
， 建 立 相 应 的 管理 机 制 和 数据 质量 问题 处 理 流程 。 


1) 数据 质量 管理 需要 数据 创建 人 员 、 使 用 人 员 和 维护 人 员 之 间 的 通力 合作 。 

2) 电力 公司 应 该 学 习 先 进 的 外 部 经 验 ， 了 解 实施 数据 质量 管理 的 必要 流程 。 

3) 可 以 选择 部 分 主题 进行 数据 质量 管理 试点 工作 。 

(4) 数据 质量 管理 工作 内 容 

1) 制定 数据 质量 管理 策略 ， 满 足 业 务 分 析 对 数据 质量 的 要 求 。 

2) 根据 数据 质量 管理 目标 ， 制 定数 据 质 量 管理 方法 。 

3) 执行 数据 质量 管理 流程 ， 推 进 数据 质量 管理 的 分 布 实施 。 根 据 业 务 管理 主题 分 类 、 





分 阶段 进行 推广 。 











电力 公司 面临 的 数据 质量 问题 分 类 见 表 13-6。 
表 13-6 电力 公司 面临 的 数据 质量 问题 分 类 



























































数据 质量 问题 分 类 说 明 示例 
a 判断 是 否 有 足够 的 信息 能 够 满足 | 。 所 有 的 地 址 是 否 都 有 邮编 、 个 人 信息 
人 决策 需求 ， 每 条 信息 是 否 完整 中 是 否 都 有 联系 方式 等 
et 
数据 是 否 能 够 正确 反映 现实 数据 是 否 能 够 符合 实际 情况 WE 3 0 0 
生产 至 综 俱 留 了 了 关于 认 各 多 个 
有 无 宛 余数 据 是 否 有 数 条 记录 表示 同一 个 实体 “| 下 全 系统 保 氏 了 关于 设 备 的 多 个 有 





(5) 数据 质量 的 指标 类 型 
数据 质量 的 指标 类 型 见 表 


指标 类 型 





13=7。 
表 13-7 数据 质量 的 指标 类 型 


说 明 衡量 标准 
























































之 政 性 实体 的 每 个 属性 都 有 明确 的 值 ， 不 存在 | gw ps 吏 
完整 性 “ 空 ” 或 “未 知 ”的 属性 字段 的 空 值 率 

se 对 于 数据 库 中 的 某 些 实体 ， 它 们 的 存在 于 对 记 圭 炙 后 下达 
相关 性 可 能 要 依赖 于 其 他 的 实体 外 键 无 对 应 主键 的 比率 
唯一 性 一 个 表 中 的 一 组 属性 值 是 唯一 的 主键 的 重复 率 
有 效 性 实体 属性 的 值 在 有 效 范围 之 内 异常 值 比率 
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( 续 ) 






























































指标 类 型 说 明 衡量 标准 
及 时 性 是 否 满足 应 用 对 数据 的 时 间 要 求 满足 时 间 要 求 的 比率 
在 入 启东 人 = 他 人 _ 

非 重复 记录 。 | 吉本 ”他 在 多 条 记录 代表 同一 个 实体 的 | 数据 非 重复 记录 比率 

en 数据 库 中 的 实体 必须 与 现实 世界 中 的 对 | 。 二 呈 小 je 

性 a 真实 数据 比率 

精确 性 数据 精度 是 否 满足 业务 需求 满足 业务 需求 对 精度 要 求 的 比率 
一 至 性 多 个 系统 内 一 致 数据 的 百分比 关于 数据 不 同 存储 的 比率 

可 理解 性 数据 本 身 的 含义 是 否 明 确 数据 理解 的 比率 

可 获得 性 数据 是 否 可 获得 ， 以 满足 业务 的 需求 。 “| ”数据 可 获得 记录 的 比率 








(6) 数据 质量 的 分 类 
数据 质量 的 分 类 见 表 13-8。 
表 13-8 数据 质量 分 类 标准 































































































数据 质量 分 类 标准 说 ” 明 示 例 
_ 致 性 当 有 多 条 记录 存在 时 ， 信 息 及 含义 是 否 | ”关于 设备 的 信息 在 生产 系统 和 财务 系统 中 是 否 
- 保持 一 至 一 臻 
时 效 性 从 数据 的 创建 到 使 用 ， 是 否 满足 用 户 对 | ”数据 在 业务 系统 中 从 产生 到 使 用 ， 是 否 满足 用 
人 时 效 性 的 要 求 户 对 时 效 性 的 要 求 
a 0 i 数据 是 否 进 入 到 数据 仓库 中 ， 并 且 能 够 被 决策 
可 访问 性 数据 是 否 可 以 被 用 户 访问 分 析 者 使 用 和 访问 
可 用 性 数据 是 否 是 可 用 的 和 易于 理解 的 一 个 报告 是 否 容易 理解 ， 不 会 产生 歧义 














(7) 数据 质量 管理 工作 说 明 

效 据 质量 管理 工作 的 流程 是 数据 分 析 人 员 或 者 管理 维护 人 员 定期 提交 数据 质量 报告 ， 报 
告 内 容 可 能 不 断 增 加 ， 随 着 质量 管理 工作 的 开展 ， 报 告 内 容 将 落实 到 各 个 环节 中 ， 但 是 数据 
质量 管理 不 能 代替 系统 的 测试 工作 。 

3. 数据 标准 管理 

(1) 数据 标准 管理 定义 

制定 和 维护 电力 公司 业务 经 营 所 涉及 的 数据 的 标准 。 主 要 包括 : 制定 标准 、 审 核 标准 、 
执行 标准 、 反 馈 数据 标准 。 数 据 标准 管理 的 对 象 是 所 有 业务 经 营 管理 的 数据 ， 不 包括 参数 型 
数据 。 

(2) 数据 标准 管理 工作 目标 

1) 完善 数据 标准 。 

2) 使 用 数据 标准 。 

3) 反馈 数据 标准 。 

4) 更 新 数据 标准 。 

5) 制定 相应 的 数据 标准 管理 机 制 ， 包 括 相 应 的 岗位 职责 、 工 作 模 板 等 。 
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(3) 数据 标准 管理 指导 原则 

参考 国内 外 相关 行业 的 标准 ， 同 时 结合 电力 公司 的 实际 需求 ， 要 求 数据 标准 能 够 在 一 段 
时 间 内 相对 稳定 ,满足 电力 公司 各 个 部 门 对 数据 标准 的 要 求 ， 而 不 是 频繁 地 更 改 与 修订 。 

(4) 数据 标准 管理 工作 内 容 

数据 标准 管理 主要 工作 内 容 包括 : 制定 并 公布 数据 标准 ， 制 定数 据 标准 管理 方法 、 管 理 
流程 、 岗 位 职责 、 工 作 模板 等 。 

4. 数据 安全 管理 

(1) 数据 安全 管理 定义 

电力 公司 数据 安全 管理 的 定义 是 对 敏感 数据 建立 一 套 完整 的 数据 安全 分 级 和 授权 机 制 。 

(2) 数据 安全 分 级 的 工作 目标 

通过 建立 一 套 完 整 的 数据 安全 分 级 标准 ， 明 确 数据 使 用 者 和 数据 安全 人 员 的 工作 职责 及 
权限 ， 同 时 建立 相关 的 数据 使 用 授权 机 制 。 

(3) 建立 数据 安全 机 制 的 指导 原则 

结合 相关 的 法 律 、 法 规 和 电力 行业 内 部 的 标准 ， 开 展 关 于 数据 安全 分 级 和 授权 的 工作 。 
根据 数据 使 用 者 的 职责 ， 定 义 使 用 者 的 权限 。 该 流程 是 包括 制定 、 审 核 、 颁 布 、 执 行 、 反 馈 
和 修正 在 内 的 闭环 工作 过 程 。 

(4) 数据 安全 分 级 的 工作 内 容 

通过 制定 相关 的 数据 安全 标准 和 政策 ， 定 义 和 维 护 数据 的 安全 分 级 标准 ， 建 立 标 准 的 维 
护 和 更 新 流程 ， 为 数据 的 应 用 和 管理 提供 安全 保障 。 主 要 内 容 包括 建立 数据 安全 分 级 和 数据 
使 用 授权 机 制 ， 实 现 数据 访问 的 安全 性 ， 同 时 对 数据 安全 分 级 和 授权 机 制 的 流程 进行 调整 和 
优化 。 

(5) 数据 安全 级 别 的 划分 

数据 安全 级 别 的 划分 见 表 13-9。 

表 13-9 数据 的 安全 级 别 
密 级 定义 示 例 

















, ,关系 到 国家 安全 或 者 包含 商业 机 密 的 信 | 全 如 ， 涉 及 国家 安全 的 机 密 信息 ， 电 力行 业 的 战略 
绝密 息 ， 要 求 信息 具有 高 度 机 密 性 、 准 确 性 、| 规划 、 购 并 计划 、 财 务 信息 等 内 容 
完整 性 、 可 靠 性 和 可 用 性 。 ` 


涉及 电力 行业 运作 的 信息 ， 要 求 保证 机 例如 ， 各 种 产品 和 系统 的 源 代 码 ， 未 公开 的 监管 数 
密 性 、 准 确 性 、 完 整 性 、 可 靠 性 和 可 用 性 ”| 据 和 各 种 审计 报告 所 


可 以 在 电力 企业 内 部 共享 的 信息 ， 但 是 
内 部 不 能 对 公众 开放 的 数据 和 信息 ， 要 求 保 证 例如 ， 业 务 操作 流程 、 会 议 备 忘 录 、 内 部 通讯 录 等 
数据 的 完整 性 、 准 确 性 、 可 靠 性 、 可 用 性 
经 过 审核 后 ， 通 过 电力 企业 发 布 渠道 向 
公开 外 公开 的 数据 和 信息 ， 需 要 保证 信息 的 完 电力 企业 网 站 发 布 的 信息 和 公开 报告 
整 性 和 准确 性 


























































































































































































































小 结 


(1) 电力 行业 主要 面临 着 如 下 业务 挑战 和 技术 挑战 。 
e 业务 挑战 
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1) 电力 行业 的 分 析 系 统一 般 仅 提供 简单 的 报表 功能 ， 功 能 单一 ， 高 层 人 员 无 法 从 全 局 
的 角度 对 各 条 业务 线 进行 多 层次 的 综合 分 析 。 

2) 对 于 各 个 分 析 系 统 来 说 ， 它 们 又 集中 于 各 自 的 领域 ， 不 具备 跨 业 务 的 分 析 能 力 ， 存 
在 着 数据 不 一 致 的 现象 ， 不 能 有 效 地 发 挥 电力 行业 数据 资产 的 价值 。 

。 技术 挑战 

1) 分 析 型 系统 与 业务 生产 系统 耦合 性 较 强 ， 缺 乏 对 全 局 业务 分 析 的 支持 ， 对 于 相同 业 
务 数据 ， 可 能 会 存在 不 同 的 版 本 。 

2) 各 个 业务 系统 管理 各 自 的 数据 ， 数 据 的 业务 含义 在 各 个 部 门 之 间 可 能 存在 不 一 致 的 
解释 ， 数 据 质量 也 相对 较 低 。 

(2) 电力 行业 商业 智能 的 数据 架构 包括 源 数据 层 、 数 据 抽取 层 、 数 据 存 储 层 、 数 据 访问 
层 和 用 户 访问 层 。 

(3) 建设 电力 行业 企业 级 数据 仓库 的 因素 主要 包括 业务 因素 和 技术 因素 。 

e 业务 因素 

在 业务 上 ， 缺 乏 统一 的 报表 与 指标 规范 体系 ， 缺 少 明确 的 数据 责任 体系 。 

。 技术 因素 

缺少 规范 的 数据 架构 ， 导 致 数据 分 布 的 不 合理 和 模型 的 不 一 致 。 同 时 数据 管理 不 规范 ， 
缺乏 企业 级 的 数据 整合 和 管控 机 制 。 

(4) 数据 仓库 开发 应 实施 以 全 局 的 观点 为 基础 ， 业 务 需求 为 导向 的 滚动 式 开发 方法 。 

(5) 电力 行业 商业 智能 系统 的 开发 流程 : 

e 计划 

。 分 析 

e 设计 及 开发 

。 测试 

。 部 署 

(6) 电力 行业 数据 仓库 系统 的 运 维 内 容 : 

。 备份 与 恢复 

。 归档 与 恢复 

。 系统 监控 

。 容量 规划 

。 性 能 管理 

(7) 数据 仓库 的 总 体 建设 策略 建议 : 

1) 电力 公司 省 级 单位 对 数据 分 析 的 需求 具有 一 定 差 异性 。 除 了 有 整个 电力 公司 共性 统 
一 的 内 容 ， 也 允许 存在 个 性 化 的 内 容 ， 我 们 在 技术 架构 统一 的 前 提 下 ， 人 允许 不 同 的 省 级 单位 
使 用 不 同 的 平台 软件 。 

2) 电力 公司 总 部 对 数据 仓库 的 建设 应 该 有 一 个 统一 的 数据 标准 体系 ， 它 可 以 帮助 省 级 
单位 建立 各 自 的 数据 管理 体系 ， 保 证 总 部 和 省 级 单位 数据 的 可 用 性 。 

3) 可 以 通过 对 试点 省 级 单位 的 成 功 推广 ， 减 少 其 他 单位 实施 数据 仓库 的 风险 ， 也 就 是 
通过 典型 成 功 案例 经 验 的 指导 ， 在 全 国 范围 内 进行 数据 仓库 建设 。 

(8) 电力 总 公司 ODS 的 功能 与 省 电力 公司 的 ODS 相同 ， 主 要 区 别 在 于 数据 源 的 不 同 。 
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总 公司 的 ODS 数据 源 主要 是 部 署 在 电力 公司 总 部 的 业务 系统 数据 源 。 电 力 总 公司 的 数据 仓 
库 的 数据 源 主要 包括 电力 公司 总 部 业务 系统 的 明细 数据 、 省 电力 公司 数据 仓库 上 报 的 数 
据 等 。 

(9) 针对 电力 行业 的 数据 管理 : 

数据 管理 是 数据 架构 的 基础 ， 它 决定 了 数据 的 可 用 性 和 价值 。 

1) 数据 管理 保证 数据 的 质量 ， 确 保 数据 的 可 用 性 。 

2) 数据 管理 将 数据 、 数 据 使 用 者 、 数 据 的 管理 机 构 整合 到 一 起 。 

3) 数据 管理 的 内 容 主 要 包括 数据 质量 管理 、 数 据 标准 管理 和 数据 安全 管理 。 

4) 数据 管理 主要 考虑 流程 、 技 术 和 组 织 。 

(10) 数据 质量 的 管理 主要 包含 以 下 几 个 方面 的 内 容 
理 目 标 、 数 据 质量 管理 原则 、 数 据 质量 管理 工作 内 容 等 。 








: 数据 质量 管理 定义 、 数 据 质量 管 
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技术 词汇 


1) 企业 战略 : 企业 战略 是 对 企业 发 展 目标 ， 包 括 达 成 目标 的 方法 和 途径 的 总 体 谋划 。 

2) 企业 业务 战略 : 企业 的 业务 战略 是 指 企业 拥有 的 所 有 资产 ， 通 过 多 种 方式 进行 有 效 
的 运营 ， 以 实现 利润 的 最 大 化 和 资本 的 增值 。 它 强调 了 企业 在 各 自 的 生产 领域 中 的 发 展 之 
道 ， 包 括 如 何 创造 价值 ， 并 且 以 更 好 的 服务 去 满足 客户 ， 这 是 企业 业务 战略 的 核心 和 重点 。 

3) 企业 开战 略 : 企业 的 开战 略 是 指 在 充分 研究 企业 的 发 展 愿景 、 业 务 策略 和 管理 的 
基础 上 ， 形 成 信息 系统 的 远景 、 组 成 架构 、 逻 辑 关 系 等 ， 以 支撑 企业 战略 目标 的 实现 。 

4) 企业 架构 ;企业 架构 实质 上 就 是 对 企业 多 角度 的 一 种 描述 ， 它 反映 了 企业 的 业务 流 
程 、 技 术 的 组 织 和 安排 ,是 对 企业 关键 性 业务 和 技术 的 整体 性 描述 。 

5) 开架 构 : IT 架构 是 对 企业 系统 的 全 规划 ， 是 建立 企业 信息 化 系统 的 综合 性 的 蓝图 ， 
IT 架构 可 以 帮助 企业 获得 最 优 的 投资 回报 ， 同 时 实现 业务 和 技术 接口 之 间 的 标准 化 ， 保 证 
企业 运营 和 企业 战略 之 间 的 一 致 性 ，IT 架构 又 是 承接 IT 战略 与 全 项 目 执 行 的 桥梁 ， 它 主要 
包含 应 用 架构 、 数 据 架构 和 技术 架构 。 

6) 业务 架构 : 广义 的 业务 架构 包括 产品 、 销 售 、 财 务 、 人 力 资 源 、 客 户 服务 等 企业 核 
心 的 业务 功能 和 职责 。 并 且 将 企业 战略 转化 成 企业 运营 的 目标 和 形式 ， 同 时 明确 相关 人 员 、 
企业 资源 、IT 资源 和 服务 如 何 协调 和 部 署 的 。 我 们 可 以 说 由 企业 战略 决定 了 业务 架构 的 模 
式 ， 同 时 业务 架构 又 是 企业 战略 实现 的 手段 。 而 狭义 的 业务 架构 包含 了 企业 运营 活动 中 的 业 
务 策略 、 组 织 、 关 键 业务 流程 、 组 织 架 构 以 及 人 员 结 构 等 内 容 。 

7) 数据 架构 : 数据 架构 是 数据 在 信息 系统 中 的 布局 与 流向 的 框架 和 与 数据 相关 的 架构 
组 件 的 摆 放 。 数 据 是 指 系统 所 处 理 的 所 有 信息 和 数据 。 而 架构 组 件 负 责 数据 的 存储 、 交 互 和 
应 用 等 功能 。 主 要 内 容 包 括 数据 的 流向 ， 是 指数 据 从 源 系统 经 过 各 类 人 处理、 加工 而 到 达 目 标 
系统 的 过 程 。 数 据 架构 的 核心 包括 对 数据 层次 的 划分 、 数 据 的 分 布 、 各 层次 的 数据 模型 和 数 
据 的 转换 等 。 数 据 架 构 是 企业 架构 中 最 重要 的 组 成 部 分 之 一 。 

8) 数据 分 类 ， 数据 分 类 是 按照 选 定 的 属性 (或 特征 ) 区 分 分 类 对 象 ， 将 具有 茶 种 共 司 
属性 (或 特征 ) 的 分 类 对 象 集合 在 一 起 的 过 程 。 

9) 数据 大 类 : 数据 大 类 是 从 宏观 的 角度 理解 企业 全 局 的 业务 情况 。 

10) 数据 小 类 : 数据 小 类 是 在 同一 大 类 内 ， 按 照 业 务 的 特性 做 进一步 的 细 分 。 

11 ) 数据 模型 : 数据 模型 是 对 数据 特征 的 抽象 ， 它 一 般 分 为 概念 横 型 、 逻 辑 模 型 和 物理 
模型 。 概 念 模型 是 以 数据 分 类 的 形式 体现 ， 而 逻辑 模型 以 ER 图 的 形式 体现 。 

12) 概念 模型 : 概念 模型 是 从 业务 的 角度 对 数据 进行 抽象 ， 包 括 业 务 层面 上 主题 域 的 划 
分 ， 以 及 各 个 主题 域 下 的 数据 分 类 和 基于 分 类 的 非 功能 属性 。 

13) 逻辑 数据 模型 : 逮 辑 数据 模型 是 用 来 发 现 、 记 录 和 沟通 业务 的 详细 “蓝图 ”， 由 一 
系列 表 和 实体 详细 描述 组 成 ， 是 通用 的 业务 语言 ， 便 于 业务 与 业务 之 间 的 功能 理解 ， 遵 循 第 
三 范式 ,包括 主题 域 的 设计 、 基 本 实体 的 设计 和 主要 属性 的 设计 ,是 I 人员 和 业务 人 员 沟 
通 的 工具 和 桥梁 。 
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14) 物理 模型 : 物理 模型 是 对 逻辑 模型 针对 具体 实现 环境 的 物理 化 ， 可 以 不 遵循 第 三 范 
式 ， 主 要 包括 实体 属性 的 物理 化 ， 属 性 的 长 度 、 类 型 、 主 键 、 外 键 、 索 引 等 详细 设计 。 物 理 
模型 主要 是 描述 模型 实体 的 细节 ， 对 列 的 属性 进行 明确 的 定义 。 物 理 模 型 的 建设 过 程 是 在 逮 
辑 模 型 的 基础 上 ， 为 应 用 生产 环境 选取 一 个 合适 的 物理 结构 的 过 程 ， 包括 存 储 结构 和 存储 
方法 。 

15) 数据 分 布 : 数据 分 布 主 要 分 析 业 务 数据 在 多 个 系统 之 间 和 多 个 环节 之 间 的 分 布 
情况 。 

16) 数据 流转 : 数据 流转 是 描述 业务 分 类 在 各 个 逻辑 库 之 间 的 流转 情况 。 

17) 数据 归档 : 数据 归档 是 定期 将 基础 数据 存储 、 应 用 的 数据 进行 归档 保存 ， 它 的 目的 
是 为 了 保存 原始 数据 。 原 则 上 数据 归档 对 中 间 数 据 或 者 临时 数据 不 进行 归档 操作 。 

18) 数据 质量 管理 : 数据 质量 管理 是 对 每 个 阶段 里 可 能 引发 的 各 种 数据 质量 问题 进行 识 
别 、 监 控 和 预警 等 一 系列 的 活动 ， 通 过 业务 管控 以 及 技术 手段 ， 保 证 数据 的 一 致 性 、 完 整 性 
和 准确 性 ， 使 其 数据 能 够 准确 地 反映 当前 的 业务 状况 。 

19) 技术 架构 的 定义 : 技术 架构 是 开 架构 中 比较 底层 的 架构 ， 它 定义 了 如 何 建立 一 个 
IT 运行 环境 来 支持 数据 架构 和 应 用 架构 。 技 术 架 构 主 要 描述 业务 、 数 据 、 应 用 服务 部 署 的 
基础 设施 能 力 ， 通 过 技术 架构 可 以 建立 一 个 全 平台 ,涉及 对 技术 的 采用 、 基 础 设施 的 建立 、 
产品 的 选择 、 系 统 的 管理 等 方面 。 

20) 应 用 架构 的 定义 : 应 用 架构 是 对 实现 业务 能 力 、 支 撑 业 务 发 展 的 应 用 功能 结构 化 的 
描述 方法 。 系 统 的 应 用 架构 可 以 从 功能 和 应 用 两 个 不 同 的 视角 描述 系统 各 组 件 构成 以 及 组 件 
之 间 的 关系 。 功 能 组 件 模 型 侧重 于 业务 功能 角度 ， 应 用 组 件 模 型 侧重 于 应 用 系统 设计 角度 。 

21) 数据 治理 分 析 框 架 的 定义 : 数据 治理 分 析 框 架 主 要 包含 两 个 部 分 ， 一 个 是 数据 治理 
管控 机 制 ， 如 政策 、 组 织 、 流 程 和 技术 工具 ， 男 一 个 是 数据 治理 涉及 的 领域 ， 如 数据 质量 管 
理 、 数 据 标准 管理 、 数 据 生命 周期 管理 和 元 数据 管理 。 

22) 数据 治理 的 定义 : 数据 治理 是 一 套 包 含 策略 、 原 则 、 组 织 结 构 、 管 理 制 度 、 流 程 ， 
并 由 各 种 相关 技术 工具 所 支撑 的 管理 框架 。 数 据 治 理 是 对 数据 管理 与 应 用 行使 权力 和 控制 的 
活动 集合 ， 在 数据 管理 与 应 用 层面 上 进行 规划 、 监 督 和 控制 。 数 据 治 理 为 数据 管理 、 数 据 应 
用 与 服务 提供 保障 。 

23) 数据 治理 现状 分 析 框 架 ， 主要 用 于 帮助 系统 对 数据 治理 现状 进行 分 析 ， 一 般 包括 数 
据 治 理 机 制 和 数据 治理 领域 两 个 部 分 。 

24) 数据 治理 领域 : 数据 治理 领域 可 以 包括 数据 质量 管理 、 数 据 生 命 周期 管理 、 数 据 标 
准 管理 和 元 数据 管理 。 

25 ) 数据 生命 周期 管理 : 数据 生命 周期 管理 根据 数据 在 生命 周期 各 个 阶段 的 使 用 情况 和 
需求 特点 ， 采 用 技术 手段 ， 对 数据 的 存储 、 迁 移 和 销毁 进行 统一 管理 ， 以 提高 系统 运行 的 效 
率 。 数 据 生命 周期 管理 的 目的 是 对 数据 进行 统一 管理 ， 降 低 数据 的 安全 隐患 和 存储 压力 。 

26) 元 数据 管理 : 元 数据 管理 是 描述 数据 的 数据 ， 它 可 以 帮助 企业 了 解数 据 、 认 识 数据 
和 管理 数据 。 

27) 数据 标准 管理 : 数据 标准 管理 是 一 套 完 整 的 数据 规范 ， 是 数据 在 使 用 和 交换 过 程 
中 ， 为 了 保持 数据 一 致 性 和 准确 性 而 制定 的 规范 ， 它 主要 包括 数据 分 类 、 业 务 标准 和 技术 标 
准 的 详细 定义 。 数 据 标准 是 数据 治理 中 基本 的 业务 和 技术 层面 的 保障 。 

































































339 








28) 大 数据 : 大 数据 就 是 通过 快速 的 采集 、 挖 掘 和 分 析 ， 从 大 数据 量 的 、 多 样 化 的 数据 
中 提取 价值 。 形 象 地 说 ， 大 数据 就 是 “沙里 淘金 ”的 过 程 。 

29) 商业 智能 : 商业 智能 就 是 利用 数据 仓库 、 数 据 分 析 和 挖 气 技术， 以 抽取 、 转 换 、 查 
询 、 分 析 和 预测 为 主 的 技术 手段 ， 帮 助 企业 完成 决策 分 析 的 一 套 解 决 方案 。 

30) 数据 仓库 : 数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 非 易 失 的 、 历 史 的 、 随 着 时 间 的 
流逝 发 生变 化 的 数据 集合 ， 它 主要 用 来 支持 企业 管理 人 员 的 决策 分 析 。 

31) 数据 集 市 : 数据 集 市 就 是 满足 特定 的 部 门 或 者 用 户 的 需求 ， 按 照 多 维 的 方式 进行 存 
储 ， 包 括 定义 维度 、 需 要 计算 的 指标 、 维 度 的 层次 等 ， 生 成 面向 决策 分 析 需 求 的 数据 立方 
体 。 数 据 仓库 体系 结构 中 增加 了 数据 集 市 ， 数 据 集 市 可 以 看 作 部 门 级 的 小 型 数据 仓库 。 

32) 分 析 类 数据 集 市 是 通过 数据 挖掘 等 方法 帮助 企业 发 现 业 务 趋 势 ， 提 高 企业 运营 效 
率 ， 深 度 挖掘 数据 的 价值 。 分 析 类 数据 集 市 包括 文本 分 析 、 数 据 挖掘 、 预 测 分 析 和 可 视 化 分 
析 等 。 

33 ) 管理 类 数据 集 市 是 指 为 了 企业 运营 管理 需要 而 进行 的 数据 整合 分 析 。 管 理 类 数据 集 
市 面向 企业 内 部 的 人 员 ， 对 于 数据 的 实时 性 要 求 不 高 。 主 要 包括 管理 驾驶 舱 、 固 定 报表 、 
OLAP 分 析 和 KPI。 管 理 类 数据 集 市 主要 支持 对 业务 运营 的 分 析 。 

34) 研发 类 数据 集 市 主要 支撑 各 个 业务 部 门 的 应 用 系统 ， 满 足 分 析 需 要 的 数据 集合 。 

35 ) 金融 : 金融 就 是 在 日 常 经 济 生活 中 ， 通 过 银行 、 证 券 机 构 等 中 介 ， 从 市 场 主体 中 募 
集资 金 ， 然 后 再 借贷 给 其 他 市 场 主体 的 活动 。 可 以 把 金融 看 作 融 资 、 投 资 和 资金 募集 这 3 种 
经 济 活 动 。 

36) 0DS: ODS 是 一 个 面向 主题 的 、 集 成 的 、 可 变 的 、 反 映 当前 细节 的 数据 集合 。 它 主 
要 用 于 支持 企业 处 理 业 务 应 用 和 存储 面向 主题 的 、 即 时 性 的 集成 数据 ， 为 企业 决策 者 提供 当 
前 细节 性 的 数据 ， 通 常 作为 数据 仓库 的 过 渡 阶 段 。 

37) ETL: ETL 是 数据 抽取 (Extract) 、 转 换 (Transform)、 加 载 (Load ) 的 英文 简写 。 
它 的 一 般 过 程 是 指 : 将 源 数据 抽取 出 来 ， 中 间 经 过 数据 的 清洗 、 转 换 ， 最 后 加 载 到 目标 
表 中 。 

38) OLTP: OLTP (在 线 联机 事务 处 理 ) 系统 主要 面向 细节 性 的 数据 ， 存 储 的 都 是 当前 
的 数据 ， 用 来 支持 日 常 业 务 运作 。 这 些 数据 都 是 可 以 更 新 的 ， 数 据 处 理 量 相 对 较 小 。 

39) OLAP: OLAP (在 线 联机 分 析 处 理 ) 系统 主要 是 综合 的 、 并 且 经 过 提 炬 的 数据 ， 它 
的 数据 主要 是 历史 数据 ， 不 可 修改 ,数据 处 理 量 相 对 较 大 ， 主 要 面向 决策 分 析 人 处 理 。 

40) 内 容 管理 : 内 容 管理 主要 提供 对 非 结构 化 数据 的 存储 、 访 问 和 管理 的 能 力 ， 包 括 一 
些 凭证 影像 、 所 有 格式 的 办 公文 档 、XML、HTML、 各 类 报表 、 图 像 和 音频 /视频 信息 等 。 

41) 数据 归档 : 数据 归档 就 是 将 旧 的 以 及 不 需要 的 数据 ， 从 数据 库 中 复制 到 其 他 地 方 。 

42) 维度 : 是 指 人 们 观察 事物 的 角度 ， 如 地 区 维度 、 时 间 维 度 、 产 品 维度 等 。 

43) 层 : 根据 维度 细节 程度 的 不 同 ， 划 分 数据 在 逻辑 上 的 等 级 关系 ， 用 来 描述 维度 的 各 
个 方面 。 例如， 时 间 维 度 包括 年 、 季 度 、 月 、 日 等 层次 ,地 区 维度 包括 国家 、 省 、 市 、 县 等 
层次 。 

44) 维度 的 成 员 : 维度 的 取 值 ， 即 维度 中 的 各 个 数据 元 素 的 取 值 。 例 如 ， 地 区 维度 中 具 
体 的 成 员 有 英国 、 法 国 、 德 国 。 

45) 钻 取 : 通过 变换 维度 的 层次 ， 改 变 粒 度 的 大 小 。 它 包括 向 上 钻 取 (Drill Up) 和 向 
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下 钻 取 (Dril Down)。 向 上 和 销 取 是 将 细节 数据 向 上 追溯 到 最 高 层次 的 汇总 数据 。 向 下 销 取 是 
将 最 高 层次 的 汇总 数据 深入 到 最 低层 次 的 细节 数据 中 。 

46) 旋转 : 通过 变换 维度 的 方向 ， 重 新 安排 维 的 位 置 ， 例 如 行列 互 换 。 

47) 切片 和 切 块 : 在 一 个 或 者 多 个 维度 上 选取 固定 的 值 ， 分 析 其 他 维度 上 的 度量 数据 。 
如 果 其 他 维度 剩余 两 个 ， 则 是 切片 ; 如 果 是 3 个 ， 则 是 切 块 。 

48) 度量 : 多 维 数据 的 取 值 。 例 如 ， 销 售 额 、 利 润 。 

49) ROLAP: 是 基于 关系 数据 库 的 OLAP， 以 关系 型 数据 库 为 基础 ， 对 多 维 数据 的 存储 。 

50) MOLAP: 是 基于 多 维 数据 库 的 OLAP， 其 中 切片 、 切 块 是 主要 技术 。 

51) HOLAP: 是 基于 关系 型 和 多 维和 矩阵 型 等 混合 型 的 OLAP 实现 。 

52) 数据 挖掘 : 数据 挖掘 (Data Mining) 就 是 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 
的 、 随 机 的 实际 应 用 数据 中 ， 提 取 隐 含 在 其 中 的 、 人 们 事先 不 知道 的 但 又 是 潜在 有 用 的 信息 
和 知识 的 过 程 。 

53 ) 流 数 据 : 流 数据 是 一 组 顺序 、 大 量 、 快 速 、 连 续 到 达 的 数据 序列 。 一 般 情况 下 ， 数 
据 流 可 视 为 一 个 随时 间 延 续 而 无 限 增长 的 动态 数据 集合 。 
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